5. Δεικτες Παραμετροι

Σχετικά έγγραφα
5. Δεικτες Παραμετροι

4 Περιγραφικη Στατιστικη

Μαθηματικά Και Στατιστική Στη Βιολογία

7. Εκτιμήσεις Τιμων Δεικτων

4. Δειγματα. Μαθηματικά και Στατιστικη στην Βιολογια. Mathematics and Statistics in Biology

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΑΝΑΛΥΣΗΣ ΔΕΔΟΜΕΝΩΝ

Μαθηματικά Και Στατιστική Στη Βιολογία

Μαθηματικά Και Στατιστική Στη Βιολογία

Εισαγωγή στη Στατιστική

Στατιστική Ι. Ενότητα 2: Στατιστικά Μέτρα Διασποράς Ασυμμετρίας - Κυρτώσεως. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

3 ο Φυλλάδιο Ασκήσεων. Εφαρμογές

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Εφαρμοσμένη Στατιστική

8. Ελεγχος Υποθεσεων. Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

Διερευνητική Ανάλυση Δεδομένων Exploratory Data Analysis

Σ ΤΑΤ Ι Σ Τ Ι Κ Η Ε Π Ι Χ Ε Ι Ρ Η Σ Ε Ω Ν ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ. 2. Περιγραφική Στατιστική

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2

Έστω 3 πενταμελείς ομάδες φοιτητών με βαθμολογίες: Ομάδα 1: 6,7,5,8,4 Ομάδα 2: 7,5,6,5,7 Ομάδα 3: 8,6,2,4,10 Παρατηρούμε ότι και οι τρεις πενταμελείς

Δρ. Χάϊδω Δριτσάκη. MSc Τραπεζική & Χρηματοοικονομική

Θεωρία Πιθανοτήτων & Στατιστική

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

Μάθημα 3 ο a. Τυχαία Μεταβλητή-Έννοιες και Ορισμοί

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

ΣΤΑΤΙΣΤΙΚΗ ΙΙ. Ενότητα 2: ΣΤΑΤΙΣΤΙΚΗ ΙΙ (2/4). Επίκ. Καθηγητής Κοντέος Γεώργιος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

3. ΠΑΡΑΜΕΤΡΟΙ ΚΑΤΑΝΟΜΩΝ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ.Μ. 436

Περιγραφική στατιστική μεθοδολογία.

Μέρος V. Στατιστική. Εισαγωγή: Βασικές έννοιες και ορισμοί. Περιγραφική Στατιστική (Descriptive Statistics)

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΕΠΑΝΑΛΗΨΗ ΒΑΣΙΚΩΝ ΕΝΝΟΙΩΝ ΣΤΑΤΙΣΤΙΚΗΣ

ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΑΣ

Κεφάλαιο 5. Οι δείκτες διασποράς

HMY 799 1: Αναγνώριση Συστημάτων

Βιοστατιστική ΒΙΟ-309

Μαθηματικά Και Στατιστική Στη Βιολογία

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ. Κεφάλαιο 2 : Πληροφορία και Εντροπία Διάλεξη: Κώστας Μαλιάτσος Χρήστος Ξενάκης, Κώστας Μαλιάτσος

HMY 795: Αναγνώριση Προτύπων

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι

Ποιο από τα δύο τµήµατα είχε καλύτερη επίδοση; επ. Κωνσταντίνος Π. Χρήστου

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΚΟΙΝΩΝΙΟΒΙΟΛΟΓΙΑ, ΝΕΥΡΟΕΠΙΣΤΗΜΕΣ & ΕΚΠΑΙΔΕΥΣΗ

Στατιστική Επιχειρήσεων Ι

Βιοστατιστική ΒΙΟ-309

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Βιοστατιστική ΒΙΟ-309

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 4

Περιγραφική Στατιστική. Π.Μ.Σ. "Μαθηματικά των Υπολογιστών και των Αποφάσεων"

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ: ΣΤΑΤΙΣΤΙΚΗ ΕΝΟΤΗΤΑ: Πιθανότητες - Κατανομές ΟΝΟΜΑ ΚΑΘΗΓΗΤΗ: ΦΡ. ΚΟΥΤΕΛΙΕΡΗΣ ΤΜΗΜΑ: Τμήμα Διαχείρισης Περιβάλλοντος και Φυσικών

Μοντέλα στην Επιστήμη Τροφίμων 532Ε

ΜΑΘΗΜΑΤΙΚΑ. 1 ο ΔΙΑΓΩΝΙΣΜΑ. ΘΕΜΑ 1 ο Δίνεται η συνάρτηση f x. Ι. Το πεδίο ορισμού της f είναι:., 1 υ -1, B. 1, Γ. -1,., 1.

ΣΥΝΔΥΑΣΤΙΚΑ ΕΠΑΝΑΛΗΠΤΙΚΑ ΘΕΜΑΤΑ ΜΑΘΗΜΑΤΙΚΩΝ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Χρήστος Ξενάκης. Πανεπιστήμιο Πειραιώς, Τμήμα Ψηφιακών Συστημάτων

ΕΡΩΤΗΣΕΙΣ ΣΩΣΤΟΥ ΛΑΘΟΥΣ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΤΗΣ Γ ΓΕΝΙΚΗΣ ΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

ΣΤΑΤΙΣΤΙΚΟΙ ΠΙΝΑΚΕΣ. ΓΕΝΙΚΟΙ (περιέχουν όλες τις πληροφορίες που προκύπτουν από μια στατιστική έρευνα) ΕΙΔΙΚΟΙ ( είναι συνοπτικοί και σαφείς )

Μ Ε Τ Ρ Α Δ Ι Α Σ Π Ο Ρ Α Σ.

Περιγραφική Στατιστική

Ενότητα 3: Περιγραφική Στατιστική (Πίνακες & Αριθμητικά μέτρα)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΤΥΠΟΛΟΓΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Θέμα 1 ο (ΜΑΪΟΣ 2004, ΜΑΪΟΣ 2008) Να δείξετε ότι η παράγωγος της σταθερής συνάρτησης f (x) = c είναι (c) = 0. Απόδειξη

ΠΕΡΙΕΧΟΜΕΝΑ. Πρόλογος... 13

Για το Θέμα 1 στα Μαθηματικά Γενικής Παιδείας Γ Λυκείου

Άσκηση 10, σελ Για τη μεταβλητή x (άτυπος όγκος) έχουμε: x censored_x 1 F 3 F 3 F 4 F 10 F 13 F 13 F 16 F 16 F 24 F 26 F 27 F 28 F

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Σ ΤΑΤ Ι Σ Τ Ι Κ Η MBA I

Εισαγωγή στη Στατιστική

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

ΑΠΟΛΥΤΗΡΙΕΣ ΕΞΕΤΑΣΕΙΣ Γ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΕΝΙΑΙΟΥ ΛΥΚΕΙΟΥ ΤΡΙΤΗ 25 ΜΑΪΟΥ 2004 ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Ποιοτική & Ποσοτική Ανάλυση εδομένων Εβδομάδα 5 η 6 η

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΑΣΥΜΜΕΤΡΙΑ Ας υποθέσουμε, ότι κατά την μελέτη της κατανομής δύο μεταβλητών, καταλήγουμε στα παρακάτω ιστογράμματα.

Φασματικη Αναλυση Συνδιασπορας

3. Κατανομες. Μαθηματικά και Στατιστικη στην Βιολογια. Mathematics and Statistics in Biology

Κεφάλαιο 1. Εισαγωγή: Βασικά Στοιχεία Θεωρίας Πιθανοτήτων και Εκτιμητικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Δείκτες Κεντρικής Τάσης και Διασποράς. Παιδαγωγικό Τμήμα Δημοτικής Εκπαίδευσης Δημοκρίτειο Πανεπιστήμιο Θράκης Αλεξανδρούπολη

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Μάθηµα 3 ο. Περιγραφική Στατιστική

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

Ευφυή Πληροφορικά Συστήματα 1 η Εργαστηριακή Άσκηση (Χειμερινό εξάμηνο ΜΒΑ )

Μέση Τιµή. Έστω Χ τ.µ. και f Χ (x) ησ.π. ήσ.π.π. της Χ Μέση ή αναµενόµενη τιµή της Χ είναι ο αριθµός: αν η Χ είναι διακριτή, και αν η Χ είναι συνεχής.

ΣΤΑΤΙΣΤΙΚΕΣ ΕΦΑΡΜΟΓΕΣ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Ι Κ. Μ. 436

03 _ Παράμετροι θέσης και διασποράς. Γούργουλης Βασίλειος Καθηγητής Τ.Ε.Φ.Α.Α. Σ.Ε.Φ.Α.Α. Δ.Π.Θ.

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

HMY 795: Αναγνώριση Προτύπων. Διάλεξη 2

Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Περιεχόμενα. Πρόλογος 17 ΚΕΦΑΛΑΙΟ 1 23

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

F x h F x f x h f x g x h g x h h h. lim lim lim f x

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΣΤΑΤΙΣΤΙΚΗ ( ΜΕΤΡΑ ΘΕΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ)

Transcript:

Μαθηματικά και Στατιστικη στην Βιολογια ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (1 ο ) Τμημα Βιολογιας Αριστοτελειο Πανεπιστημιο Θεσσαλονικης Mathematics and Statistics in Biology WINTER SEMESTER (1 st ) School of Biology Aristotle University of Thessaloniki 5. Δεικτες Παραμετροι Iωαννης Αντωνιου iantonio@math.auth.gr Χαραλαμπος Μπρατσας cbratsas@math.auth.gr Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

Σκοπος-Περιεχομενο Ποιοι οι βασικοι Δεικτες- Στατιστικες Παραμετροι Στατιστικοι Δεικτες- Παραμετροι Θεση Κατανομης (Location Parameters) Eξαπλωση- Εκταση Κατανομης (Spread or Dispersion) Σχημα Κατανομης (Shape Parameters) Εξαρτηση Μεταβλητων Μέση Τιμή (mean) Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). Ποσοστημορια (Quantiles, Percentiles) Εύρος (range). Διασπορα (variance) Τυπική Απόκλιση (standard deviation) Σχετικο Σφαλμα (relative error) = Mεταβλητοτης (CV) Αποστασεις Ποσοστημοριων Eντροπια Entropy (και για κατηγορικες μεταβλητες) Λοξότητα (skewness). Κύρτωση (kurtosis). Συντελεστης Συνδιασπορας Pearson Αμοιβαια Πληροφορια (Mutual Information) (και για κατηγορικες μεταβλητες)

Στατιστικοι Δεικτες- Παραμετροι Οι Στατιστικοι Δεικτες (Παραμετροι) οριζονται: Θεωρητικα από την Κατανομη Πιθανοτητας ρ: θ = θ ρ Εμπειρικα από τα Δεδομενα των Παρατηρησεων θεωρωντας ως Πιθανοτητα την Εμπειρικη Σχετικη Συχνοτητα. θ = D (Data) D : Η Εμπειρικη Εκτιμητρια (Συναρτηση) της Παραμετρου Διαπιστωθηκε όμως ότι οι Εμπειρικες Παραμετροι θ δεν ειναι παντοτε ικανοποιητικες Εκτιμησεις Η Εμπειρικη Τυπικη Αποκλιση δεν είναι Αμεροληπτη. Διορθωση Bessel 1830. Τεθηκαν ως εκ τουτου Κριτηρια Αξιολογησης- Επιλογης Εκτιμησεων από Δεδομενα Παρατηρησεων και προεκυψαν διαφορες Εκτιμητριες των Παραμετρων που συμβολιζονται ως: θ = D (Data) D : Η Εκτιμητρια (Συναρτηση) της Παραμετρου

Θεση Κατανομης (Location Parameters) Eξαπλωση- Εκταση Κατανομης (Spread or Dispersion) Σχημα Κατανομης (Shape Parameters) Εξαρτηση Μεταβλητων Μέση Τιμή (mean) Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). Ποσοστημορια (Quantiles, Percentiles) Εύρος (range). Διασπορα (variance) Τυπική Απόκλιση (standard deviation) Σχετικο Σφαλμα (relative error) = Mεταβλητοτης (CV) Αποστασεις Ποσοστημοριων Eντροπια (και για κατηγορικες μεταβλητες) Λοξότητα (skewness). Κύρτωση (kurtosis). Συντελεστης Συνδιασπορας Pearson Αμοιβαια Πληροφορια (Mutual Information)

Μεση Τιμη m = X = Ε Χ the Expectation Value of the Variable X m = ν x ν p ν, για Διακριτες Μεταβλητες m = + xx(x)dd, για Συνεχεις Μεταβλητες

η Μεταβλητη Αθροισμα Ενδειξεων 2 Ζαριων Το Αθροισμα των ενδειξεων 2 Ζαριων Παρατηρησιμα Γεγονοτα (Κελια) Observable Events (Cells) Μέση Τιμή m= 2 1 36 + 3 2 36 + 4 3 36 + 5 4 36 + 6 5 36 + 7 6 36 + 8 5 36 + 9 4 36 + 10 3 36 + 11 2 36 + 12 1 36 m= 2 36 + 6 36 + 12 36 + 20 36 + 30 36 + 42 36 + 40 36 + 36 36 + 30 36 + 22 36 + 12 36 = 7 Πιθανοτητα Probability 2 Ξ 2 ={ (1,1)} 1/36=3% 3 Ξ 3 ={ (1,2), (2,1)} 2/36=6% 4 Ξ 4 ={ (2,2), (1,3),(3,1)} 3/36=8% 5 Ξ 5 ={ (1,4), (2,3),(3,2), (4,1)} 4/36=11% 6 Ξ 6 ={ (1,5), (2,4),(3,3), (4,2), (5,1)} 5/36=14% 7 Ξ 7 ={ (1,6), (2,5),(3,4), (4,3), (5,2), (6,1)} 6/36=17% 8 Ξ 8 ={ (2,6), (3,5),(4,4), (5,3), (6,2)} 5/36=14% 9 Ξ 9 ={ (3,6), (4,5),(5,4), (6,3)} 4/36=11% 10 Ξ 10 ={ (4,6), (5,5),(6,4)} 3/36=8% 11 Ξ 11 ={ (5,6), (6,5)} 2/36=6% 12 Ξ 12 ={ (6,6)} 1/36=3%

Μεση Τιμη Ιδιοτητες Θεωρημα 1) Γραμμικοτης E[cX]= ce[x], c πραγματικος αριθμος E[X 1 +X 2 ]= E[X 1 ] + E[X 2 ] 2) Θετικοτης E[Χ] 0, εάν Χ 0 3) Κανονικοποιηση E[1]=1, 1(y)=1, η Μεταβλητη με σταθερη τιμη 1 Ε[Ο]=0, Ο(y)= 0, η Μεταβλητη με σταθερη τιμη 0 4) E[X 1 ] E[X 2 ], αν X 1 X 2 5) Ε[Χ] E[ X ] 6) Ε[g(Χ)] g(e[x]), g:χ R, πραγματικη συναρτηση της μεταβλητης Χ Οπου: Ε[g(Χ)] = g(x 1 ) p 1 + g(x 2 )p 2 + για διακριτες μεταβλητες + = g(x)ρ(x)dd για συνεχεις μεταβλητες

Μεση Τιμη Ιδιοτητες Θεωρημα: Ανισοτητα Μarkov P[ X α] E X α, α>0 E X α είναι το ποσοστο τιμων της Μεταβλητης Χ με μεγεθος τουλαχιστον α Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων E X P[ X 7] = 7 = 1 8 7 P[ X 7]= 6 + 5 + 4 + 3 + 2 + 1 = 22 = 0. 55 33 33 33 33 33 33 33 P[ X 8] E X 8 = 7 8 = 0. 888 P[ X 8]= 5 33 + 4 33 + 3 33 + 2 33 + 1 33 = 11 33 P[ X 9] E X 9 = 7 9 = 0. 777 P[ X 9]= 4 33 + 3 33 + 2 33 + 1 33 = 11 33 = 0. 44 = 0. 222

Μεση Τιμη Εκτιμηση από το Δειγμα Μ Μετρησεις: χ 1,, χ Μ Φασμα n Tιμων: x 1,, x n, n M m = χ 1 + + χ Μ Μ = x 1f 1 + + x n f n n = x 1 ρ 1 + + x n ρ n Η Εμπειρικη Μεση Τιμη είναι Αμεροληπτη Εκτιμητρια

Poπη ν-ταξεως, ν=1,2,3, m ν = E[X ν ] = (x 1 ) ν ρ 1 + (x 2 ) ν ρ 2 + + = x ν ρ(x)dd ΣΧΟΛΙΑ 1) m 1 = m = E[X], η πρωτη ροπη είναι η Μεση Τιμη 2) m 2 = E[X 2 ] η «Ισχυς» ή «Ροπη Αδρανειας» ή Μεση Τιμη Τετραγωνου (mean square) της Μεταβλητης X 3) Aν γνωριζουμε τις ροπες, γνωριζουμε την κατανομη, υπο προυποθεσεις (moment problem). Συνηθως στην πραξη αρκουν οι 4 πρωτες ροπες για προσεγγιση της κατανομης

Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων E[X 2 2 1 ] = 2 + 33 32 2 + 33 42 3 + 33 52 4 5 6 5 4 + 62 + 72 + 82 + 92 + 33 33 33 33 33 112 3 + 33 112 2 + 33 112 1 33 E[X 2 ] = 4 1 2 + 9 + 11 3 + 22 4 5 6 5 4 + 33 + 44 + 66 + 88 + 111 3 + 111 2 + 111 1 33 33 33 33 33 33 33 33 33 33 33 E[X 2 ] = 0. 11 + 0. 5 + 1. 33 + 2. 77 + 5 + 8. 11 + 8. 88 + 9 + 8. 33 + 6. 77 + 4 E[X 2 ] = 54.83 η Ισχυς της Χ

Ροπες Εκτιμηση από το Δειγμα m ν = x 1 ν ρ 1 + + x n ν ρ n Η Εμπειρικες Ροπες είναι Αμεροληπτες Εκτιμητριες

Κορυφες η Επικρατουσες Τιμες (Μοdes) Οι τιμες x=ξ mode στις οποιες η Κατανομη ρ(x) εχει (τοπικα) μεγιστα Μονοκορυφες κατανομες (Unimodal) εχουν 1 μεγιστο Δικορυφες κατανομες (Βimodal) εχουν 2 μεγιστα

Διάμεσος (Median) H τιμη x=ξ 1/2 : P[x< x 1/2 ] 1 2 P[x x 1/2] Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων Διαμεσος ξ 1/2 = 7 = m = ξ mode Χρησιμοποιηθηκε από τον G. Fechner Fechner Law 1860: Perception of Stimulus B = k ln B B 0 B 0 = the threshold of stimulus below which no stimulus is perceived B B 0 Keynes, J.M. (1921) A Treatise on Probability, Pt II Ch XVII 5 (p 201)

Σχεση Μεσης Τιμης, Διαμεσου, Κορυφης Θεωρημα Για συμμετρικες κατανομες: Μεση Τιμη = Διαμεσος = Κορυφη Για λιγο ασυμμετρες κατανομες: Μεση Τιμη Κορυφη 3(Μεση Τιμη Διαμεσος) Για ασυμμετρες κατανομες προς τα αριστερα: α 3 > 0 Μεση Τιμη > Διαμεσος > Κορυφη Για ασυμμετρες κατανομες προς τα δεξια: α 3 < 0 Μεση Τιμη < Διαμεσος < Κορυφη

α Ποσοστημοριο, 0<α<1 α Quantile Η τιμη της μεταβλητης x = x α, 0<α<1 με πιθανοτητα το πολύ α: P[X < x α ] α P[x x α ] Αν F συνεχης και γνησιως αυξουσα, τοτε το α Ποσοστημοριο είναι η λυση της Εξισωσης: F x = α x α = F 1 α

x 1/4 = x 0.25 το πρωτο τεταρτημοριο x 1/2 = x 0.50 το δευτερο τεταρτημοριο (η διαμεσος) x 3/4 = x 0.75 το τριτο τεταρτημοριο Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων x 1/4 = x 0.25 = 4 x 1/2 = x 0.50 = 7 x 3/4 = x 0.75 = 9

x 0.1, x 0.2,, x 0.9 τα 9 Δεκατημορια (Deciles) Παραδειγμα: τα 9 Δεκατημορια της Κανονικης Κατανομης:

Θεση Κατανομης (Location Parameters) Eξαπλωση- Εκταση Κατανομης (Spread or Dispersion) Σχημα Κατανομης (Shape Parameters) Εξαρτηση Μεταβλητων Μέση Τιμή (mean) Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). Ποσοστημορια (Quantiles, Percentiles) Εύρος (range). Διασπορα (variance) Τυπική Απόκλιση (standard deviation) Σχετικο Σφαλμα (relative error) = Mεταβλητοτης (CV) Αποστασεις Ποσοστημοριων Eντροπια (και για κατηγορικες μεταβλητες) Λοξότητα (skewness). Κύρτωση (kurtosis). Συντελεστης Συνδιασπορας Pearson Αμοιβαια Πληροφορια (Mutual Information)

Εύρος H εκταση του φασματος: x max x min Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων Eυρος x max x min = 12 2 = 10 Εύρος Δειγματος: x n x 1

Διακυμανση (Fluctuation) H τιμη (Χ m) = (Χ E[X]) ΣΧΟΛΙΟ Η Διακυμανση δειχνει ποσο απεχει η μετρηση από την Μεση Τιμη Συνεπως η Μεση Διακυμανση είναι εκτιμηση της Μεταβλητοτητος της Χ Θεωρημα H μεση Διακυμανση μηδενιζεται: Ε[(Χ E[X])]=0 Αποδειξη Ε[(Χ E[X])]= Ε[Χ] E[Ε[X] = Ε[Χ] Ε[X] = 0 ΣΧΟΛΙΟ Ειμαστε υποχρεωμενοι να ορισουμε άλλες παραμετρους για την Μεταβλητοτητα

Κεντρικη Poπη ν-ταξεως, ν= 1,2,3, c ν = E[(Χ m) ν ] = (x 1 m) ν p 1 + (x 2 m) ν p 2 + + ΣΧΟΛΙΑ 1) c 1 = Ε[(Χ E[X])] = 0 = (x m) ν ρ(x)dd 2) Η c 2 = Ε[(Χ E[X]) 2 ] (η ροπη 2ας ταξεως της Μεταβλητης (Χ m) ) είναι η Μεση Τιμη του Τετραγωνου (mean square) της Διακυμανσης Η απλουστερη εκτιμηση της Μεταβλητοτητας Θεωρημα Oι Κεντρικες Ροπες αρτιας Ταξεως Συμμετρικων ως προς τον Μεσο Κατανομων, μηδενιζονται

Διασπορα (Variance) var(x) = Ε[(X m) 2 ] = (x 1 m) 2 p 1 + (x 2 m) 2 p 2 + + = (x m) 2 ρ(x)dd Θεωρημα. Ιδιοτητες της Διασπορας var[χ] 0 var [X+c] = var[x] Η τυπική απόκλιση δεν μεταβάλλεται άν στις τιμές της μεταβλητής Χ προστεθεί μια σταθερά var [cx]= c 2 var [X], c πραγματικος αριθμος var [X 1 +X 2 ] = var [X 1 ] + var [X 2 ] var [X] = E[X 2 ] (E[X]) 2 = E[X 2 ] m 2 Aποδειξη Από τον ορισμο με Αλγεβρικες Πραξεις

Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων E[(X 7) 2 ] = (2 7) 2 1 33 +(8 7) 2 5 33 E[(X 7) 2 ] = 5 2 1 33 + 42 2 33 + 32 3 33 2 3 4 + (3 7)2 + (4 7)2 + (5 7)2 + (6 33 33 33 7)2 5 + (7 33 7)2 6 + 33 4 3 2 + (9 7)2 + (11 7)2 + (11 7)2 + (11 33 33 33 7)2 1 33 4 5 6 5 + 22 + 12 + 02 + 12 + 33 33 33 33 22 4 + 33 32 3 + 33 42 2 + 33 52 1 33 E[(X 7) 2 ] = 22 1 33 + 11 2 33 + 9 3 33 4 5 5 4 3 + 4 + 1 + 0 + 1 + 4 + 9 + 11 2 + 22 1 33 33 33 33 33 33 33 E[(X 7) 2 ] = 4. 999

Θεωρημα. Ανισοτητα Chebychev P[ X m α ] = var X α 2, α>0 var X α 2, α>0 είναι το ποσοστο τιμων της Μεταβλητης Χ με αποσταση από τη μεση τιμη τουλαχιστον α Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων P[ X 7 5 ] = 4.999 5 2 = 0. 1111

Τυπικη Αποκλιση Standard Deviation = the root mean square fluctuation = rms fluctuation σ = var[x] σ 2 = var[x] Η Τυπικη Αποκλιση είναι η συνηθης εκτιμηση των σφαλματων (θεωρουνται ως αποκλισεις από την μεση τιμη) Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων E[(X 7) 2 ] = 4. 999 σ= vvv[x] = 4. 999 = 2. 22 ΣΧΟΛΙΟ Πως συγκρινουμε τα σφαλματα διαφορετικων Μεταβλητων?

Σχετικο η Ποσοστιαιο Σφαλμα (από την Μεση Τιμη) ή Συντελεστης Μεταβλητοτητος (από την Μεση Τιμη) Relative Deviation σ m = vaa[x] Ε[Χ] ΣΧΟΛΙΟ σ μικρο οι τιμες της X είναι πλησιον της μεσης τιμης m με μεγαλη πιθανοτητα m σ m μεγαλο οι τιμες της X είναι μακραν της μεσης τιμης m με μεγαλη πιθανοτητα Ο Συντελεστής Μεταβλητοτητος εκφράζεται επί τοις εκατό και είναι ανεξάρτητος από τις μονάδες μέτρησης. Εκφράζει ένα μέτρο σχετικής διασποράς των τιμών της μεταβλητής. Ένα δείγμα τιμών μιας μεταβλητής θεωρείται ομοιογενές όταν ο Συντελεστής Μεταβλητοτητος είναι μικρότερος ή ίσος του 10%. Παραδειγμα: X = Το Αθροισμα των ενδειξεων 2 Ζαριων σ m = vvv[x] Ε[Χ] = 2.23 7 = 0.319

Ασκηση {Βαθμος 0.3} Υπολογιστε το σχετικο σφαλμα της Μεταβλητης Α = "Αθροισμα των ενδειξεων 2 Ζαριων" Στις εξης περιπτωσεις: 1) Για 2 oμοια ζαρια με p 1 = 1 3, p 2 = p 3 = p(4) = p(5) = p(6) = 2 11 2) Για 2 oμοια ζαρια με p 1 = 1 3, p 2 = 1 6, p 3 = p(4) = p(5) = p(6) = 1 8 3) Ένα Ζαρι με p 1 = p 2 = p 3 = p(4) = p(5) = p(6) = 1 6 και Ένα Ζαρι με p 1 = 1 3, p 2 = p 3 = p(4) = p(5) = p(6) = 2 11 4) Ένα Ζαρι με p 1 = p 2 = p 3 = p(4) = p(5) = p(6) = 1 6 και Ένα Ζαρι με p 1 = 1 3, p 2 = 1 6, p 3 = p(4) = p(5) = p(6) = 1 8 Συγκρινατε τα Αποτελεσματα των 5 περιπτωσεων

Κεντρικες Ροπες Εκτιμηση από το Δειγμα Εμπειρικες Κεντρικες Ροπες: c ν = x 1 m ν ρ 1 + + x n m ν ρ n Εμπειρικη Διασπορα: σ 2 = (χ 1 m ) 2 + +(χ Μ m ) 2 Μ = (χ 1 m ) 2 ρ 1 + + (χ n m ) 2 ρ n Εμπειρικη Τυπικη Αποκλιση: σ = (χ 1 m ) 2 + +(χ Μ m ) 2 Μ = (χ 1 m ) 2 ρ 1 + + (χ n m ) 2 ρ n Η Εμπειρικες Κεντρικες Ροπες δεν είναι Αμεροληπτες Εκτιμητριες

Αμεροληπτη Τυπικη Αποκλιση: s = (χ 1 m ) 2 + +(χ Μ m ) 2 Μ 1 m = η Εμπειρικη Μεση Τιμη Η διoρθωση (Μ 1 αντι Μ) Bessel 1830 lim Μ s(m) σ = 0

Oρισμος Σχετικό Σφάλμα Δειγματος σ m Oρισμος Αμεροληπτο Σχετικό Σφάλμα (relative error) Δειγματος s m Oρισμος Τυπικό Σφάλμα Μεσης Τιμης Δειγματος (Standard Error of the Mean) SE= s N = (χ 1 m ) 2 + +(χ Μ m ) 2 Μ(Μ 1)

Αποστασεις Ποσοστημοριων =Ενδοποσοστημοριακό Ευρος (interquantile range). x α x 1 α Η απόσταση των συμπληρωματικών α-ποσοστημορίων x α και x 1 α Το Ενδοποσοστημοριακό Ευρος αποτελει εκτιμηση της εξαπλωσης-εκτασης των τιμών της μεταβλητης Χ. x 0.75 x 0.25 το ενδοτεταρτημοριακό ευρος (interquartile range). x 0.90 x 0.10 το ενδοδεκατημοριακό ευρος (interdecile range).

Εντροπια (Shannon) n S = S[ρ] = S SΗΗΗΗΗΗ [ρ] = ρ i lll 2 ρ i i=1 ρ = ρ i = ρ(x i ), i=1,2,,n η Κατανομη Πιθανοτητος της Διακριτης Μεταβλητης Χ (Αριθμητικης ή Κατηγορικης) με φασμα τιμων x 1, x 2,, x n Τις τιμες της Μεταβλητης (Αριθμητικης ή Κατηγορικης) Παρατηρω στο Πειραμα ή Υποθετω στο πλαισιο καποιου Μοντελου lll 2 ξ = llξ lll, ξ > 0, ln2=0.693147180559945 Εντροπια Συνεχους Κατανομης S = dd p x lnp x

Εντροπια (Shannon) Θεωρημα Φασμα Τιμων Εντροπιας 0 S Χ lll 2 n Ελαχιστη Τιμη Εντροπιας: S Χ = 0 Η Μεταβλητη Χ λαμβανει μια και μονο μια από τις Τιμες x 1, x 2,, x n, εστω την x k, με βεβαιοτητα οι Τιμες x 1, x 2,, x n ακολουθουν Καθορισμενη κατανομη: 1, i = k ρ i = ρ x i = 0, i k, i=1,2,,n Μεγιστη Τιμη Εντροπιας: S Χ = lll 2 n Η Μεταβλητη Χ λαμβανει ολες τις Τιμες x 1, x 2,, x n με την αυτή Πιθανοτητα οι Τιμες x 1, x 2,, x n ακολουθουν Ομοιομορφη κατανομη: ρ i = ρ x i = 1 n, i=1,2,,n

H Eντροπια είναι εκτιμητρια: της Αταξιας-Τυχαιοτητος της κατανομης της Ποικιλοτητος της κατανομης της Πολυπλοκοτητος της κατανομης της Αβεβαιοτητας- Ρισκου Προβλεψης με βαση την κατανομη της Πληροφοριας (πληθος bits) που χρειαζομαι για να περιγραψω-κωδικοποιησω το προβλημα

(Δυαδικη) Πληροφορια Moναδες Μετρησης 1Byte=1B=2 3 bits=8bits 1KB=2 10 B=1024B=8142 bits 1MB=2 10 KB=1024KB=1048576B=8337408 bits 1GB=2 10 MB=1024MB 8.8 x10 9 bits 1TB=2 10 GB=1024GB 8.8 x10 12 bits 1PB=2 10 TB=1024TB 8.8 x10 15 bits

Information Amounts 1 Text Character 1 Byte = 8 bits TV Image 1.4 x 10 6 bits (576 lines 720 columns) = 414720 px,10 luminosity scales 1 chromosome 100000bits = 2 x 10 5 bits DΝΑ as 4 Symbol Message Information in Bacteria 900000 GB Memory Cells, E. Coli, 2011 Cells in the Human Body > 10 14 Brain Neurons ~10 11 Brain Synaptic Links ~10 15 Brain Memory 2.5 PetaBytes = 1048576 GB 8.8 x 10 18 bits ~ 300 years of TV and Audio recording! Cyberspace 2007: 281 billion GB=281x10 9 GB 2.5x10 21 bits Cyberspace 2016: ~10 23 bits Cyberspace Indexed Google 0.004% 10 18 bits 2007 1.4 x 10 18 bits 2012 Atoms in 12gr C 6,022 x 10 23 Universe 10 100 bits Chess 10 43 bits GO 10 200 bits? Eternity II 10 550 bits Borges Βabel Library 2.6 x10 1834103 Bytes

Genetic Alphabet Eors Szathmary 1992 What is the Optimum Size for the Genetic Alphabet? Proc. Natl. Acad. Sci. USA 89, 2614-2618

DNA Digital Storage Church G. Gao Y., Kosuri S. 2012, Next-Generation Digital Information Storage in DNA Science DOI: 10.1126/science.1226355 DNA is among the most dense and stable information media known. The development of new technologies in both DNA synthesis and sequencing make DNA an increasingly feasible digital storage medium. We develop a strategy to encode arbitrary digital information in DNA, write a 5.27-megabit book (HTML draft) using DNA microchips, and read the book using nextgeneration DNA sequencing. A,C 0 G,T 1 DNA Advantages over traditional digital storage media. 1) DNA can be easily copied, and is often still readable after thousands of years in non-ideal conditions. 2) the Techniques required to read and write DNA information are as old as life on Earth, unlike ever-changing electronic storage formats such as magnetic tape and DVDs.

Εντροπια Βιβλιογραφια Shannon C., Weaver W. 1949, The Mathematical Theory of Communication, University of Illinois, Urbana, Illinois. Kempton R. and Wedderburn R. 1978, A Comparison of Three Measures of Species Diversity, Biometrics 34, 25-37 Kuppers B.-O. 1990, Information and the Origin of Life, MIT Press, Cambridge, Massachusetts Traub J., Werschulz A. 1998, Complexity and Ιnformation, Cambridge University Press, Cambridge. McDonald G. 2003, Biogeography: Space, Time and Life, Wiley, New York Yockey H. 2005, Information theory, Εvolution and the origin of Life, Cambridge University Press, Cambridge.

Παραδειγμα: Ριψη 2 Ζαριων Δειγματοχωρος Y= 1,1, 1,2, 1,3, 1,4, 1,5, 1,6 (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) Tυχαιες Mεταβλητες: Ζ(y) = το Αποτελεσμα της ριψης των 2 ζαριων Α(y) = το Αθροισμα των Ενδειξεων των 2 Ζαριων Δ(y) = η απολυτη τιμη της Διαφορας των ενδειξεων των 2 Ζαριων (Α(y),Δ(y)) = η Κοινη Παρατηρηση των Μεταβλητων (Α,Δ)

36 S Ζ = 1 36 lll 1 2 36 ν=1 = lll 2 36 5.17 S Α = 2 1 36 lll 2 1 36 + 2 2 36 lll 2 2 36 + 2 3 36 lll 2 3 36 + 2 4 36 lll 2 4 36 + 2 5 36 lll 2 5 36 + 6 36 lll 2 6 36 = 1 18 5.17 + 1 9 4.17 + 1 6 3.58 + 1 8 3.17 + 5 18 2.85 + 1 6 2.58 = 3.031 S Δ = 2 6 36 lll 2 6 36 + 10 36 lll 10 2 36 + 8 36 lll 2 8 36 + 4 36 lll 2 4 36 + 2 36 lll 2 2 36 = 2.43

S Α,Β = 4 1 32 lll 2 1 32 + 14 2 32 lll 2 2 32 = 1 8 lll 2 32 + 7 8 lll 2 16 = 1 8 5,000001 + 7 8 4,000001 = 0.625 + 3.500 = 4.125 lll 2 x = lll lll = lll 0.693147 lll 2 32 = lll 2 16 = ll 32 0.693147 = 3.465736 0.693147 = 5,000001 ll 16 0.693147 = 2.772588 0.693147 = 4,000001 lll 2 16 = lll 2 32 2 = lll 2 32 lll 2 2 = lll 2 32 1

Συνοψη S Ζ = 5.17 S Α = 3.031 S Δ = 2.43 S Α,Δ = 4.125 S ΑΠΟΤΕΛΕΣΜΑ > S ΑΘΡΟΙΣΜΑ,ΔΙΑΦΟΡΑ > S ΑΘΡΟΙΣΜΑ > S ΔΙΑΦΟΡΑ

Ποια η Αβεβαιοτητα «Πειραγμενου» Ζαριου? Εντροπια Ισοπιθανου Ζαριου Εντροπια «Πειραγμενου» Ζαριου S MMM = 6 1 6 lll 2 1 6 = lll 26 = 2. 555 Ψηφιο 1 2 3 4 5 6 Ζαρι Α Ζαρι Β Συχνοτης Συχνοτης 1 11 1 22 1 11 1 22 1 11 1 22 1 11 1 22 1 11 1 22 1 2 3 4 S Α = 5 1 10 log 2 S Β = 5 1 20 log 2 1 10 + 1 2 log 1 2 2 = 1 2 log 10 + 1 2 2 log 2 = 1.661 + 1 = 2. 111 2 2 1 20 + 3 4 log 3 2 4 = 1 4 log 20 3 2 4 log 3 = 1.080 + 0.331 = 1. 444 2 4 S Β < S Α < S MMM

Εντροπια Συνεχων Κατανομων Kατανομη Τυπος Εντροπια Gauss ρ x = 1 2π e 1 2 x2 1. 44, m = 0, σ = 1 Laplace ρ x = 2 2 e x 2, m = 0, σ = 1 1. 33

Εντροπια και Διασπορα

Εντροπια Εκτιμηση από το Δειγμα Εμπειρικη Εντροπια: n S = ρ i lοg 2 ρ i i=1 Η Εμπειρικη Εντροπια δεν είναι Αμεροληπτη Εκτιμητρια Miller G. 1955, Note on the bias of information estimates, In Information Theory in Psychology: Problems and Methods, pp. 95 100. Πολλες Εκτιμητριες εχουν προταθει. Korbinian Schürmann T. 2015, A Note on Entropy Estimation, Neural Comput. 2015 Oct;27(10):2097-106. doi: 10.1162/NECO_a_00775. Epub 2015 Aug 27

Εντροπια. Εκτιμηση από το Δειγμα Εντροπια Συρρικνωσης Shrinkage: (η βελτιστη προς το παρον) S = n ν=1 ρ i lοg 2 ρ i ρ i = ρ x i = ζ 1 n + (1 ζ)ρ i ζ = mmm n 1 ρ 2 i (M 1) i=1 n i=1 1 n ρ i 2, 1, The Shrinkage Intensity Hausser J., Strimmer K. 2009, Entropy Inference and the James-Stein Estimator, with Application to Nonlinear Gene Association Networks, Journal of Machine Learning Research 10, 1469-1484 Πούρικα Α. 2016, Εκτίμηση Εντροπίας και Συνεκτικοτης Εγκεφάλου, Διπλωματικη Εργασια, Μεταπτυχιακο Προγραμμα Σπουδων Στατιστικης και Μοντελοποιησης, Τμημα Μαθηματικων

Σφαλμα (Error) είναι κάθε διαφορα-αποκλιση της Εκτιμησης-Προβλεψης-Γνωμης μας από την Παρατηρηση της Πραγματικοτητος Tα Σφαλματα μπορει να ωφειλονται και σε Υλικες Δυσλειτουργιες (Hardware Malfunctions), όπως Brain Deficits (Ανοια, Μωρια, Μαλακυνσις, Χημικες Παρεμβασεις-Αλλοιωσεις). Λαθος είναι το Σφαλμα που Λανθανει της Προσοχης και για το οποιο δεν εχουμε Επιγνωση

Θεση Κατανομης (Location Parameters) Eξαπλωση- Εκταση Κατανομης (Spread or Dispersion) Σχημα Κατανομης (Shape Parameters) Εξαρτηση Μεταβλητων Μέση Τιμή (mean) Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). Ποσοστημορια (Quantiles, Percentiles) Εύρος (range). Διασπορα (variance) Τυπική Απόκλιση (standard deviation) Σχετικο Σφαλμα (relative error) = Mεταβλητοτης (CV) Αποστασεις Ποσοστημοριων Eντροπια (και για κατηγορικες μεταβλητες) Λοξότητα (skewness). Κύρτωση (kurtosis). Συντελεστης Συνδιασπορας Pearson Αμοιβαια Πληροφορια (Mutual Information)

Λοξότητα (skewness) α 3 = c 3 σ 3 c 3 = E[(Χ m) ν ] η Κεντρικη Poπη 3ης -ταξεως,

Κύρτωση (Kurtosis) α 4 = c 4 σ 4 c 4 σ4 > 3 Λεπτοκυρτη κατανομη c 4 σ4 = 3 Μεσοκυρτη κατανομη, προσεγγιζεται από την κανονικη Κατανομη c 4 σ4 < 3 Πλατυκυρτη κατανομη c 4 σ4 3 = Εxcess Kurtosis

Ασκηση {Βαθμος 0.2=0.1+0.1} Επιλεξατε μια συμμετρικη και μια ασυμμετρη Διακριτη κατανομη πιθανοτητος (από τον Καταλογο) Υπολογιστε τις 8 Παραμετρους {0.1} Μέση Τιμή (Μean) Kορυφες (Μodes) Διάμεσος (Μedian) Τυπική Απόκλιση (Standard Deviation) Σχετικο Σφαλμα (Relative Error) Λοξότητα (Skewness) Κύρτωση (Kurtosis) Εντροπια (Entropy) Εξεταστε τις Σχεσεις Μεσης Τιμης, Διαμεσου, Κορυφης {0.1}

Θεση Κατανομης (Location Parameters) Eξαπλωση- Εκταση Κατανομης (Spread or Dispersion) Σχημα Κατανομης (Shape Parameters) Εξαρτηση Μεταβλητων Μέση Τιμή (mean) Ροπες (Moments) Kορυφες (modes) Διάμεσος (median). Ποσοστημορια (Quantiles, Percentiles) Εύρος (range). Διασπορα (variance) Τυπική Απόκλιση (standard deviation) Σχετικο Σφαλμα (relative error) = Mεταβλητοτης (CV) Αποστασεις Ποσοστημοριων Eντροπια (και για κατηγορικες μεταβλητες) Λοξότητα (skewness). Κύρτωση (kurtosis). Συντελεστης Συνδιασπορας Pearson Αμοιβαια Πληροφορια (Mutual Information)

Oρισμος Συντελεστης Συνδιασπορας Pearson των Mεταβλητων X,Y Οπου: r ΧΥ = ccc X, Y vvv X vvv Y = σ ΧΧ σ Χ σ Υ σ XX = cov(x,y)= Ε[(X-Ε[X])(Y-Ε[Y])]= Ε[(X m X )(Y m Y )] = Ε[XY] m X m Y Η Συνδιασπορα των Mεταβλητων X,Y (Covariance) E[XY]= cor(x,y) = <X,Y> Η Συσχετιση των Mεταβλητων X,Y (Correlation) σ XX = σ 2 = var(x) η Διασπορα της Μεταβλητης X cor(xx) = E[X 2 ] = <X,X> = X 2 η Ισχυς της Μεταβλητης X

Θεωρημα 1) Ο Συντελεστης Pearson λαμβανει τιμες στο διαστημα [-1,1]: 1 r ΧΧ 1 2) r ΧΧ = +1 Οι Μεταβλητες Χ,Υ συνδεονται με την σχεση: Υ = α + βχ, β>0 α πραγματικος αριθμος Y = m Y σ Y σ Χ m X + σ Y σ Χ X 3) r ΧΧ = 1 Οι Μεταβλητες Χ,Υ συνδεονται με την σχεση: Υ = α βχ, β>0 α πραγματικος αριθμος Y = m Y σ Y σ Χ m X σ Y σ Χ X 4) r ΧΧ = 0 για Ανεξαρτητες Μεταβλητες (ρ x, y = ρ X (x) ρ Υ (y), για κάθε τιμες x,y) αλλα το αντιστροφο δεν ισχυει. Δηλαδη υπαρχουν Μεταβλητες με r ΧΧ = 0 που δεν είναι Ανεξαρτητες

Αποδειξη 1),2),3) Από την Ανισοτητα Cauchy Schwarz 4) Ε XX = ρ x, y xx x,y = x,y ρ X (x) ρ Υ (y)xx = x ρ X (x)x ( y ρ Υ (y) y) = E[X]E[Y] Παραδειγμα: οι Μεταβλητες Χ με E[X]=0 και Υ=Χ 2 δεν είναι Ανεξαρτητες αλλα: r ΧΧ = 0 Feller 1970, An Introduction to Probability Theory and its Applications, Volume I, 3rd ed.th. 3, p. 222 Oρισμος Οι Χ, Υ είναι Ασυσχετιστες Μεταβλητες (Uncorrelated Variables) r ΧΧ = 0 ccc X, Y =0 E[XY] = m X m Y Δηλαδη οι Μεταβλητες Χ, Υ δεν σχετιζονται "γραμμικα" ΣΧΟΛΙΟ Από το Θεωρημα συναγεται ότι: Οι Ανεξαρτητες Μεταβλητες είναι Ασυσχετιστες ('Γραμμικα"), αλλα οι Ασυσχετιστες ('Γραμμικα") Μεταβλητες δεν είναι κατ'αναγκην Ανεξαρτητες

Συντελεστης Pearson Galton 1888 (Kληρονομικοτης Υψους), εξαδελφος του C. Darwin Pearson 1895 συνεργατης και συνεχιστης του εργου του Galton Pearson K. 1920, Notes on the History of Correlation, Biometrika 13, 25-45 Rodgers J. L., Nicewander W. A. 1988, Thirteen ways to look at the correlation coefficient, The American Statistician, 42(1), 59 66 Stigler S. M. 1989, Francis Galton's Account of the Invention of Correlation, Statistical Science 4 (2): 73 79

Παραδειγμα Ποσο σχετιζονται οι Μεταβλητες Α, Β στην Ριψη 2 ζαριων? Α: το Αθροισμα των Ενδειξεων 2 Ζαριων Β: η Διαφορα των Ενδειξεων 2 Ζαριων Ασκηση {0.2}

Συντελεστης Pearson Εκτιμηση από Δειγμα Data Matrix Μ 2 M Observations of the Variables X,Y Variable X Y Observation 1 χ 1 ψ 1 Observation 2 χ 2 ψ 2 Observation Μ χ Μ ψ Μ Εμπειρικος Συντελεστης Pearson r XX = M ν=1 χ ν m Χ ψ ν m Υ M ν=1 (χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2

Αμεροληπτος Συντελεστης Pearson Προταση Ο Εμπειρικος Συντελεστης Pearson ταυτιζεται με τον Αμεροληπτο Συντελεστη Pearson r XX = σ XX σ Χ σ Υ = s ΧY s Χ s Υ = M ν=1 χ ν m Χ ψ ν m Υ M ν=1 (χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2

Αποδειξη r XX = σ XX σ Χ σ Υ = = M ν=1 χ ν m Χ ψ ν m Υ M M ν=1(χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2 M M M ν=1 χ ν m Χ ψ ν m Υ M ν=1 (χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2 s ΧΧ s Χ s Υ = M ν=1 χ ν m Χ ψ ν m Υ M 1 = M ν=1(χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2 M 1 M 1 = M ν=1 χ ν m Χ ψ ν m Υ M ν=1 (χ ν m Χ ) 2 M ν=1(ψ ν m Υ ) 2

Συντελεστης Pearson Προβληματα 1) Ο Συντελεστης Pearson δεν εφαρμοζεται σε Κατηγορικες Μεταβλητες 2) Η συνθηκη r ΧΧ = 0, είναι ικανη αλλα οχι αναγκαια για να ειναι οι Μεταβλητες Χ,Υ Ανεξαρτητες 3) Η τιμη του Συντελεστη Pearson 2 Μεταβλητων, δειχνει ποσο ισχυρη είναι η "γραμμικη συσχετιση" τους, αλλα δεν χαρακτηριζει γενικωτερα την σχεση τους Damghani Β., Welch D., O'Malley C. Knights S. 2012, The Misleading Value of Measured Correlation, Wilmott 1, 64 73. doi:10.1002/wilm.10167 Παραδειγμα: Τα 4 συνολα Δεδομενων του Anscombe Anscombe F. 1973, Graphs in statistical analysis, The American Statistician 27, 17 21. doi:10.2307/2682899

Προβλημα: Οι Στατιστικοι Δεικτες δεν είναι παντοτε Ικανοποιητικοι Τα 4 Συνολα Δεδομενων του Anscombe

Δεικτης Τιμες στα 4 Συνολα Δεδομενων Μεση Τιμη της Χ m X = 9 Διασπορα της Χ σ X = 3,32 Μεση Τιμη της Υ m Υ =7,50 Διασπορα της Υ 2,030 σ X 2,031 Συντελεστης Pearson r XX = 0.816 Ηθικον Διδαγμα: Πρωτα Παρατηρουμε την γραφικη Παρασταση των Δεδομενων και Κατοπιν Προχωρουμε στην Μαθηματικη Αναλυση Anscombe F. 1973, Graphs in statistical analysis, The American Statistician 27, 17 21. Chatterjee S., Firat A. 2007, Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset, American Statistician 61, 248 254

Tυποποιημενη Αμοιβαια Πληροφορια των Mεταβλητων X,Y οπου: I XY = I X;Y = S X + S Y S X,Y mmm {S X, S Y } S X = ρ x log 2 ρ(x) x Η Εντροπια της Μεταβλητης X S Y = ρ y log 2 ρ(y) y Η Εντροπια της Μεταβλητης Y S X,Y = x,y ρ x, y log 2 ρ x, y Η Κοινη Εντροπια των Μεταβλητων X,Y

Θεωρημα Φασμα Τιμων Tυποποιημενης Αμοιβαιας Πληροφοριας 0 I XY 1 I XY = 0 X, Y Ανεξάρτητες Μεταβλητές I XY = 1 η Μεταβλητή μικρότερης Εντροπίας είναι συνάρτηση της άλλης Μεταβλητής μεγαλύτερης Εντροπίας (αιτιώδης - καθορισμένη εξάρτηση)

Συγκριση Tυποποιημενης Αμοιβαιας Πληροφοριας και Συντελεστη Pearson Συντελεστης Pearson -1 r XY 1 εφαρμοζεται μονο σε Αριθμητικες Μεταβλητες Η συνθηκη r ΧΧ = 0, ισχυει αν οι Μεταβλητες Χ,Υ είναι Ανεξαρτητες Αλλα δεν διασφαλιζει οτι οι Μεταβλητες Χ,Υ είναι Ανεξαρτητες Η τιμη του Συντελεστη Pearson δειχνει ποσο ισχυρη είναι η "γραμμικη συσχετιση" τους, αλλα δεν χαρακτηριζει γενικωτερα την σχεση τους Tυποποιημενη Αμοιβαια Πληροφορια 0 I XY 1 εφαρμοζεται σε οιαδηποτε Μεταβλητη Η συνθηκη Ι ΧΧ = 0, ισχυει αν οι Μεταβλητες Χ,Υ είναι Ανεξαρτητες Και διασφαλιζει οτι οι Μεταβλητες Χ,Υ είναι Ανεξαρτητες Η τιμη της Tυποποιημενης Αμοιβαιας Πληροφοριας, δειχνει ποσο ισχυρη είναι η αλληλεξαρτηση τους και χαρακτηριζει γενικωτερα την σχεση τους Ο Συντελεστης Pearson διακρινει μεταξυ θετικης Εξαρτησης και αρνητικης Εξαρτησης Η Tυποποιημενη Αμοιβαια Πληροφορια δεν διακρινει μεταξυ θετικης Εξαρτησης και αρνητικης Εξαρτησης

Παραδειγμα: Αν οι Μεταβλητες Χ,Υ ακολουθουν Κοινη Κανονικη Κατανομη ρ x, y = 1 2πσ Χ σ Y 1 r eee 1 2 2(1 r 2 ) x m X σ X 2 + z m Y σ Y 2 2r x m X σ X y m Y σ Y Τοτε η Tυποποιημενη Αμοιβαια Πληροφορια είναι: I = ll 1 r2 ll 2πe σ 2 Oπου: σ = min(σ Χ, σ Υ ) ΣΧΟΛΙΟ: r = 0 I = 0 Δηλαδη στις Κανονικες Κατανομες η συνθηκη r = 0 είναι ικανη και αναγκαια για να είναι αν οι Μεταβλητες Χ,Υ Ανεξαρτητες

Tυποποιημενη Αμοιβαια Πληροφορια Εκτιμηση από το Δειγμα Εμπειρικη Tυποποιημενη Αμοιβαια Πληροφορια: οπου: S X = x ρ x lll 2 ρ (x) Η Εμπειρικη Εντροπια της Μεταβλητης X I XY = Ĩ X;Y = S X + S Y S X,Y mmm {S X, S Y} S Y = ρ y lll 2 ρ y y Η Εμπειρικη Εντροπια της Μεταβλητης Υ S X,Y = ρ x, y log 2 ρ x, y x,y Η Κοινη Εμπειρικη Εντροπια των Μεταβλητων X,Y

Η Εμπειρικη Tυποποιημενη Αμοιβαια Πληροφορια δεν είναι Αμεροληπτη Εκτιμητρια Καθοτι η Εμπειρικη Εντροπια δεν είναι Αμεροληπτη Εκτιμητρια. Οριζουμε, με βαση την Εντροπια Συρρικνωσης, την Tυποποιημενη Αμοιβαια Πληροφορια Συρρικνωσης (Shrinkage): οπου: S X = ρ x lll 2 ρ (x) x Η Εντροπια Shrinkage της Μεταβλητης X I XY = Î X;Y = S X + S Y S X,Y mmm {S X, S Y} S Y = ρ y lll 2 ρ y y Η Εντροπια Shrinkage της Μεταβλητης Y S X,Y = ρ x, y log 2 ρ x, y x,y Η Κοινη Εντροπια Shrinkage των Μεταβλητων X,Y

Παραδειγμα Συσχετιση Χρωματος Οφθαλμων με το Χρωμα Μαλιων των Φοιτητων του 2012-3 Οι Υπολογισμοι εγιναν από τους κ. Ρ.-Ν. Τασακη και Ε. Καραπουλια Πρωτοετεις Φοιτητες Βιολογιας ΑΠΘ του 2012-3 Εστω Χ=Χρωμα Οφθαλμων Τιμες: Κ=Καφε, Γ=Γαλαζιο, ΚΠ=Καστανοπρασινο, Π=Πρασινο, ΓΠ=Γαλαζοπρασινο Υ=Χρωμα Μαλλιων Τιμες: μ=μαυρο, ξ=ξανθο, κ=καστανο, κξ=καστανοξανθο

Υπολογισμος Εμπειρικης Tυποποιημενης Αμοιβαιας Πληροφοριας S X = 34 52 log 34 2 52 3 52 log 2 S X,Y = 2 S Y = 8 52 log 2 4 52 log 2 I XY = S X + S Y S X,Y mmm {S X, S Y} 3 52 8 52 log 2 8 52 1 52 log 2 4 52 26 52 log 26 2 52 4 1 52 log 2 8 52 6 52 log 2 6 52 1 52 log 2 1 52 31 52 log 31 2 52 12 52 log 12 2 52 1,458 1 52 4 2 52 log 2 mmm {S X, S Y} = S Y = 1,458 2 52 2 3 52 log 2 1 52 1,523 3 52 2,706 I XY = S X + S Y S X,Y mmm {S X, S Y } 1, 555 + 1, 444 2, 777 = 1, 444 = 0, 1111 Μικρη Αμοιβαια Εξαρτηση Με τον Συντελεστη Pearson δεν είναι εφικτη η εκτιμηση της Εξαρτησης Κατηγορικων Μεταβλητων

Ασκηση {Βαθμος 0.5} Υπολογιστε την Εμπειρικη Tυποποιημενη Αμοιβαια Πληροφορια για εκαστο Συνολο Δεδομενων Anscombe. Τι Συμπεραινετε?