ΜΑΘΗΜΑΤΙΚΑ και ΣΤΑΤΙΣΤΙΚΗ στη ΒΙΟΛΟΓΙΑ 4 Περιγραφικη Στατιστικη Ι. Αντωνιου Κ. Κρικωνης Τμημα Μαθηματικων Aριστοτελειο Πανεπιστημιο Θεσσαλονικης Χειμερινο Εξαμηνο
Συλλογή Δεδομένων από τις Παρατηρήσεις Διενέργεια έρευνας κατά πόσον κάποιος πιστεύει ότι η κοτόσουπα είναι αποτελεσματική στην πρόληψη ττου κρυολογήματος. Πείραμα τους δίνουμε κοτόσουπα και μετράμε πόσες φορές θα κρυολογήσουν. Remember Always Ο σωστός σχεδιασμός της Έρευνας ή του Πειράματος προυποθετει: Σαφή διατύπωση των ερωτημάτων (queries) ώστε να προσδιορίζονται ορθά οι σχετικές Μεταβλητες. Στοχοποίηση του πληθυσμού που ενδιαφέρει. Επιλογή τυχαίου (αμερόληπτου) δείγματος. Σωστή κωδικοποίηση και καταχώρηση των απαντήσεων σε εύχρηση βάση δεδομένων για περαιτερω επεξεργασια.
Οργάνωση και Παρουσίαση Δεδομένων Ορισμος Φασμα Δειγματος Ν μετρησεων της Μεταβλητης Χ οι n N διαφορετικες τιμες {x 1, x 2,, x n } του Δειγματος. Συνηθως διατασσονται: x 1 < x 2 < < x n Ορισμος Συχνοτης του Δειγματος Ν ν = ο αριθμος εμφανισεων της τιμης x ν, ν=1,2,,n στο δειγμα Ν 1 + Ν 2 + + Ν n = N
Ορισμος Σχετικη Συχνοτης του Δειγματος = Πιθανοτητα Δειγματος ρ ν = Ν ν Ν = ρ(x ν), ν=1,2,,n Η σχετική συχνότητα είναι πιθανότητα στο φασμα του Δειγματος {x 1, x 2,, x n } θεωρουμενο ως Δειγματοχωρος Ορισμος Αθροιστικη Σχετικη Συχνοτης του Δειγματος F ν = Ν 1+Ν 2 + + Ν ν Ν = F(x ν ) = ρ 1 +ρ 2 + +ρ ν, ν=1,2,,n Η συναρτηση Κατανομης της πιθανοτητας ρ
Παρατηρηση: Ριψη Ζαριου 20 φορες Μετρηση Δειγμα Φασμα Συχνοτητα Σχετικη Συχνοτητα Αθροιστικη 1 ξ 1 =2 x 1 = 1 Ν 1 = 2 ρ 1 = 2 2 ξ 2 =4 x 2 = 2 Ν 2 = 5 ρ 2 = 5 3 ξ 3 =5 x 3 = 3 Ν 3 = 2 ρ 3 = 2 4 ξ 4 =6 x 4 = 4 Ν 4 = 5 ρ 4 = 5 5 ξ 5 =3 x 5 = 5 Ν 5 = 2 ρ 5 = 2 6 ξ 6 =4 x 6 = 6 Ν 6 = 4 ρ 6 = 4 7 ξ 7 =2 8 ξ 8 =1 9 ξ 9 =4 10 ξ 10 =6 11 ξ 11 =6 12 ξ 12 =3 13 ξ 13 =2 14 ξ 14 =4 15 ξ 15 =2 16 ξ 16 =6 17 ξ 17 =5 18 ξ 18 =4 19 ξ 19 =2 20 ξ 20 =1 20 20 20 20 20 20 Σχετικη Συχνοτητα F 1 = 2 20 F 2 = 7 20 F 3 = 9 20 F 4 = 14 20 F 5 = 16 20 F 6 = 20 20 = 1
Συχνοτητες και Σχετικες Συχνοτητες Δειγματος Παρ ότι είναι ισοδυναμες μαθηματικα, πολλοι χρηστες διευκολυνονται με τις Φυσικες συχνοτητες «It makes little mathematical difference whether statistics are expressed as probabilities, percentages, or absolute frequencies. It does, however, make a psychological difference. More specifically, statistics expressed as natural frequencies improve the statistical thinking of experts and nonexperts alike» Hoffrage U., Lindsey S., Hertwig R., Gigerenzer G. 2000, Communicating Statistical Information, Science 230, 22 December, 2261-2262
Παραστάσεις Δεδομενων ραβδογράμματα, ιστογράμματα, κυκλικά διαγράμματα, σημειογράμματα, θηκογράμματα).
Οι Στατιστικες Παραμετροι του Δείγματος είναι οι στατιστικές παράμετροι με πιθανοτητα την σχετική συχνότητα του δείγματος Παραμετροι Θεσης Κατανομης (Location Parameters) Μέση Τιμή (Μean) m = ξ 1 + + ξ Ν Ν = x 1f 1 + + x n f n n = x 1 ρ 1 + + x n ρ n Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). n περιττος: x 1/2 = x (n+1)/2 n αρτιος: x 1/2 = x n/2 +x n/2+1 2 Ποσοστημορια (Quantiles, Percentiles)
Παραμετροι Μεταβλητότητας Κατανομης (Dispersion Parameters) Εύρος (range) δειγματος. Διασπορά (variance) δειγματος Τυπική Απόκλιση (standard deviation) δειγματος Αμεροληπτη Τυπική Απόκλιση δειγματος Σχετικό Σφάλμα (relative error) δειγματος Αμεροληπτο Σχετικό Σφάλμα (relative error) δειγματος Τυπικό Σφάλμα Μεσης Τιμης (Standard Error of the Mean) δειγματος Αποστάσεις Ποσοστημορίων Η Αμεροληπτη Τυπική Απόκλιση Το Αμεροληπτο Σχετικό Σφάλμα και το Τυπικό Σφάλμα Μ.Τ. ορίζονται μόνο για δείγματα
Oρισμος Εύρος δειγματος: x n x 1 Oρισμος Διασπορά δειγματος σ 2 = (ξ 1 m ) 2 + +(ξ Ν m ) 2 Ν = (x 1 m ) 2 ρ 1 + + (x n m ) 2 ρ n Oρισμος Τυπική Απόκλιση (standard deviation) δειγματος σ = σ 2 = (ξ 1 m ) 2 + +(ξ Ν m ) 2 Ν = (x 1 m ) 2 ρ 1 + + (x n m ) 2 ρ n Θεωρημα H Τυπικη Αποκλιση δειγματος δεν είναι Αμεροληπτη Στατιστικη παραμετρος
Oρισμος Αμεροληπτη Τυπικη Αποκλιση δειγματος s = (ξ 1 m ) 2 + +(ξ Ν m ) 2 Ν 1 m = η Μεση Τιμη του Δειγματος Η διoρθωση (N 1 αντι N) Bessel 1830
Oρισμος Σχετικό Σφάλμα δειγματος σ m Oρισμος Αμεροληπτο Σχετικό Σφάλμα (relative error) δειγματος s m Oρισμος Τυπικό Σφάλμα Μεσης Τιμης (Standard Error of the Mean) δειγματος SE= s N = (ξ 1 m )2 + +(ξ Ν m )2 N(Ν 1)
Παραμετροι Σχηματος Κατανομης (Shape Parameters) Λοξότητα (skewness). Κύρτωση (kurtosis). Εντροπια Δειγματος n Ĩ = ρ ν lοg 2 ρ ν ν=1
Γραμμικη Παλινδρομηση Διαγραμμα Διασπορας των μετρησεων της μεταβλητης Υ ως προς την Χ (ελεγχομενη) Scatter Plots of Pairwise Combinations of Extrasolar Planet Data http://vis.berkeley.edu/courses/cs294-10-fa07/wiki/index.php/a2-markhowison
Προβλημα Ευρεσης Σχεσης Υ= f(x) από τις Παρατηρησεις (Data Fitting) x 1, x 2,, x N y 1, y 2,, y N y 1 = f(x 1 ), y 2 = f(x 2 ),, y N = f(x N ) f : Συναρτηση Παλινδρομισης (Regression Function) Στην πραξη η εκτιμωμενη συναρτηση f προσεγγιζει τις παρατηρουμενες τιμες Σφαλματα: (f(x 1 ) y 1 ) (f(x 2 ) y 2 ) (f(x Ν ) y Ν )
Εξισωση Ευθειας Γραμμικης Παλινδρομησης (Linear Regression) Y=α+βΧ
Γραμμικη Παλινδρομηση Εκτιμηση των παραμετρων α, β της Ευθειας Παλινδρομησης Μεθοδος Ελαχιστων Τετραγωνων Gauss Θεωρημα H συναρτηση Y=f(X) = α +β Χ με παραμετρους β = Ν ν=1 Ν ν=1 x ν y ν Nx y Ν ν=1 2 (x ν ) 2 N x ν = S xy (S x ) 2 α = y βx οπου: S xy = ν=1 x νy ν Nx Ν Ν 1 y (S x ) 2 = Ν ν=1 (x ν )2 Nx 2 Ν 1, S y 2 = Ν ν=1 (y ν )2 Ny 2 Ν 1 x = Ν ν=1 x ν Ν, y = Ν ν=1 y ν Ν εχει το Ελαχιστο (Ολικο) Τετραγωνικο Σφαλμα: (f(x 1 ) y 1 ) 2 + (f(x 2 ) y 2 ) 2 + + (f(x Ν ) y Ν ) 2 = ε(α,β)
2) H ελαχιστη τιμη του Μεσου Τετραγωνικου Σφαλματος είναι: ε(α, β) min N = σ Y 2 (1 r 2 ) Εκτιμηση Διασπορας Γραμμικης Παλινδρομησης Oρισμος Συντελεστης (Γραμμικης) Συσχετισης Pearson των Μεταβλητων X, Y = Ν ν=1(x ν x )(y ν y ) varx vary Ν ν=1(x ν x ) 2 Ν ν=1(y ν y ) 2 r = cov(x,y) Θεωρημα r = S xy S x S y = β Sx S y
r = 0 β =0 r 1 β >0 r 1 β <0 Δεν υπαρχει Γραμμικη εξαρτηση των Χ,Υ Υπαρχει θετικη Γραμμικη εξαρτηση των Χ,Υ Υπαρχει αρνητικη Γραμμικη εξαρτηση των Χ,Υ
ΣΧΟΛΙΑ 1) Ανακαλυψη Μεθοδου Ελαχιστων Τετραγωνων Gauss 1795 (18 ετων) 2) Ανακαλυψη Ποσειδωνα από την τροχια του Ουρανου 1846 Με την Μεθοδο Ελαχιστων Τετραγωνων 3) Γενικα Γραμμικα Μοντελα Y=α+β 1 Χ 1 + β 2 Χ 2 + + β Ν Χ Ν 4) Μη Γραμμικη Παλινδρομηση 5) Παρεμβολη με κλασσεις συναρτησεων (Πολυωνυμα, Τριγωνομετρικες, Wavelets) 6) Δειγματοληψια Shannon
Oρισμος Συντελεστης Αλληλοεξαρτησης Αμοιβαιας Πληροφοριας Δειγματος r MI = Ĩ[X] + Ĩ[Y] Ĩ[X, Y] min ( Ĩ[X], Ĩ[Y] ) οπου: Ĩ[X] + Ĩ[Y] Ĩ[X, Y] = x,y ρ(x, y)log 2 ρ(x,y) ρ(x)ρ(y) Ĩ[X] = ρ(x)log 2 ρ(x) x Η Εντροπια Δειγματος της Μεταβλητης X Ĩ[Y] = ρ(y)log 2 ρ(y) y Η Εντροπια Δειγματος της Μεταβλητης Υ Ĩ[X,Y] = ρ(x, y)log 2 ρ(x, y) x,y Η Κοινη Εντροπια Δειγματος των Μεταβλητων X,Y
Παραδειγμα Συσχετιση Χρωματος Οφθαλμων με το Χρωμα Μαλιων των Φοιτητων του 2012-3 Οι Υπολογισμοι εγιναν από τους κ. Ρ.-Ν. Τασακη και Ε. Καραπουλια Πρωτοετεις Φοιτητες Βιολογιας ΑΠΘ Εστω Χ=Χρωμα Οφθαλμων Τιμες: Κ=Καφε, Γ=Γαλαζιο, ΚΠ=Καστανοπρασινο, Π=Πρασινο, ΓΠ=Γαλαζοπρασινο Υ=Χρωμα Μαλλιων Τιμες: μ=μαυρο, ξ=ξανθο, κ=καστανο, κξ=καστανοξανθο
Αποτελεσμα Παρατηρησεων Χ Υ Μαύρα (μ) Ξανθά (ξ) Καστανά (κ) Καστανό- Ξανθα (κξ) Καφέ (Κ) Γαλάζια (Γ) Καστανοπράσινα (ΚΠ) Πράσινα (Π) Γαλαζοπράσινα (ΓΠ) Ρ μ,κ = 4/52 Ρ μ,γ = 0/52 Ρ μ,κπ =3/52 Ρ μ,π =1/52 Ρ μ,γπ =0/52 Ρ μ = 8/52 Ρ ξ,κ = 0/52 Ρ ξ,γ = 0/52 Ρ ξ,κπ =1/52 Ρ ξ,π =0/52 Ρ ξ,γπ =0/52 Ρ ξ = 1/52 Ρ κ,κ = 26/52 Ρ κ,γ = 1/52 Ρ κ,κπ =2/52 Ρ κ,π =2/52 Ρ κ,γπ =0/52 Ρ κ = 31/52 Ρ κξ,κ = 4/52 Ρ κξ,γ = 2/52 Ρ κξ,κπ =2/52 Ρ κξ,π =3/52 Ρ κξ,γπ =1/52 Ρ κξ = 12/52 Χ Ρ Κ = 34/52 Ρ Γ = 3/52 Ρ ΚΠ = 8/52 Ρ Π = 6/52 Ρ ΓΠ = 1/52 1 Υ
Υπολογισμος Εντροπιων r MI = Ĩ[X] + Ĩ[Y] Ĩ[X, Y] min( Ĩ[X], Ĩ[Y]) Ĩ[X] = 34 52 log 34 2 52 3 52 log 2 Ĩ[X, Y] = 2 Ĩ[Υ] = 8 52 log 2 4 52 log 2 3 52 8 52 log 2 8 52 1 52 log 2 4 52 26 52 log 26 2 52 4 1 52 log 2 8 52 6 52 log 2 6 52 1 52 log 2 1 52 31 52 log 31 2 52 12 52 log 12 2 52 1,458 1 52 4 2 52 log 2 2 52 2 3 52 log 2 1 52 1,523 3 52 2,706 min( Ĩ[X], Ĩ[Y]) = Ĩ[Υ] = 1, 458 r MI = 1, 523 + 1, 458 2, 706 1, 458 r MI = 0, 18861454