10ο Μάθημα Πιθανότητες Σωτήρης Νικολετσέας, αναπληρωτής καθηγητής Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Πατρών Ακαδημαι κο Έτος 2014-2015 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 1 / 52
Άδειες Χρη σης Το παρο ν εκπαιδευτικο υλικο υπο κειται σε α δειες χρη σης Creative Commons. Για εκπαιδευτικο υλικο, ο πως εικο νες, που υπο κειται σε α λλου τυ που α δεια χρη σης, η α δεια χρη σης αναφε ρεται ρητω ς. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 2 / 52
Χρηματοδο τηση Το παρο ν εκπαιδευτικο υλικο ε χει αναπτυχθει στα πλαι σια του εκπαιδευτικου ε ργου του διδα σκοντα. Το ε ργο Ανοικτα Ακαδημαι κα Μαθη ματα για το Πανεπιστη μιο Πατρω ν ε χει χρηματοδοτη σει μο νο την αναδιαμο ρφωση του εκπαιδευτικου υλικου. Το ε ργο υλοποιει ται στα πλαι σια του επιχειρισιακου προγρα μματος Εκπαι δευση και Δια Βι ου Μα θηση και συγχρηματοδοτει ται απο την Ευρωπαι κη Ένωση (Ευρωπαι κο Κοινοτικο Ταμειο) και απο εθνικου ς πο ρους. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 3 / 52
Περιεχο μενα 10ης Δια λεξης Εισαγωγικα σχο λια Περιγραφικη στατιστικη γραφικε ς με θοδοι αναπαρα στασης αριθμητικα περιγραφικα με σα Ζευ γη στατιστικω ν δεδομε νων - συσχε τιση Μετασχηματισμο ς στατιστικω ν δεδομε νων Σημει ωση: Οι διαφα νειες βασι ζονται κυρι ως στα εξη ς βιβλι α: Εισαγωγη στις Πιθανο τητες και τη Στατιστικη, Δαμιανο ς, Παπαδα τος, Χαραλαμπι δης, Τμη μα Μαθηματικω ν Πανεπιστημι ου Αθηνω ν, 2003 Introduction to Probability and Statistics for Engineers and Scientists, Sheldon M. Ross, 2004 Πιθανο τητες & Στατιστικη, Γ. Κονο μος, Γκιου ρδας Εκδοτικη, 2009 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 4 / 52
Θεωρι α Πιθανοτη των και Στατιστικη Θεωρι α Πιθανοτη των: θεωρου με ο τι γνωρι ζουμε tην κατανομη που ακολουθει ε να τυχαι ο πει ραμα. Στατιστικη : η κατανομη ει ναι α γνωστη και προσπαθου με να την συμπερα νουμε απο ε να κατα λληλα μικρο δει γμα μετρη σεων. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 5 / 52
Statistics is the art of learning from data. Sheldon Ross Η στατιστικη μελετα την συλλογη δεδομε νων (η μετρη σεων η τιμω ν), την περιγραφη τους, την ανα λυση των δεδομε νων και την εξαγωγη σχετικω ν συμπερασμα των. Τα δεδομε να μπορει να ει ναι η δη διαθε σιμα (π.χ. οι τιμε ς του πληθυσμου τα τελευται α εκατο χρο νια, ο αριθμο ς και το με γεθος των σεισμω ν, το κατα κεφαλη ν εισο δημα κλπ.) προς στατιστικη ανα λυση. Επι σης, η στατιστικη χρησιμοποιει ται για το σχεδιασμο κατα λληλων πειραμα των για την παραγωγη δεδομε νων (π.χ. επιλογη φοιτητω ν για την συγκριτικη αξιολο γηση δυ ο νε ων εκπαιδευτικω ν μεθο δων, η επιλογη ασθενω ν για την πειραματικη αξιολο γηση ενο ς νε ου φαρμα κου, κλπ.) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 6 / 52
Δυ ο κυ ριοι κλα δοι στατιστικη ς μη παραμετρικη : η κατανομη ει ναι παντελω ς α γνωστη, αλλα με μια προσεκτικη παρατη ρηση προσπαθου με να την συμπερα νουμε. παραμετρικη : η κατανομη θεωρει ται ο τι ανη κει σε μια γνωστη οικογε νεια κατανομω ν και αναζητου με κα ποια α γνωστη παρα μετρο της. π.χ. ξε ρουμε ο τι ο αριθο ς ελαττωματικω ν λαμπτη ρων που παρα γονται με μια νε α τεχνολογι α ακολουθει την διωνυμικη κατανομη με παρα μετρο p, και προσπαθου με με δειγματοληπτικο ε λεγχο να συμπερα νουμε το α γνωστο p. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 7 / 52
Σημερινη Δια λεξη τυ ποι, οργα νωση και αναπαρα σταση στατιστικω ν δεδομε νων γραφικε ς με θοδοι αναπαρα στασης αριθμητικα περιγραφικα με σα συσχε τιση ζευγω ν στατιστικω ν δεδομε νων μετασχηματισμο ς στατιστικω ν δεδομε νων Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 8 / 52
Α. Τυ ποι στατιστικω ν στοιχει ων Έστω συ νολο απο στοιχει α (elements, πληθυσμο ς ), π.χ. οι κα τοικοι μιας πο λης, οι λαμπτη ρες μι ας συγκεκριμε νης εταιρει ας, για τα οποι α καταγρα φουμε τις τιμε ς που παι ρνουν ε να η περισσο τερα χαρακτηριστικα, π.χ. το ετη σιο εισο δημα των κατοι κων, το επα γγελμα, το χρω μα των ματιω ν τους, ο χρο νος ζωη ς των λαμπτη ρων, κλπ. Κα θε χαρακτηριστικο του πληθυσμου περιγρα φεται απο μι α τυχαι α μεταβλητη X. Ο πληθυσμο ς μπορει να ει ναι πολυ μεγα λος οπο τε αντι για ο λα τα στοιχει α του εξετα ζουμε ε να σχετικα μικρο υποσυ νολο τους που καλει ται δει γμα (sample ). Αν απο τον πληθυσμο καταγρα ψουμε τυχαι ο δει γμα μεγε θους ν, θα ε χουμε ν ανεξα ρτητες, ισο νομες τ.μ. X 1, X 2,..., X ν. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 9 / 52
Τυ ποι στατιστικω ν στοιχει ων Δυ ο ει δη: ποσοτικε ς (quantitative ) τ.μ.: παι ρνουν αριθμητικε ς τιμε ς (π.χ. αριθμο ς παιδιω ν, ετη σιο εισο δημα, δια ρκεια ζωη ς). Διακρι νονται σε διακριτε ς, συνεχει ς. ποιοτικε ς (qualitative ) τ.μ.: παι ρνουν τιμε ς που δεν ει ναι μετρη σιμες αλλα αντιστοιχου ν σε διακεκριμε νες κατηγορι ες (π.χ επα γγελμα, χρω μα ματιω ν). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 10 / 52
Με θοδοι αναπαρα στασης στατιστικω ν δεδομε νων απλη καταγραφη και ανα γνωση: πι νακες συχνοτη των συστηματικη, εποπτικη αναπαρα σταση: γραφικε ς με θοδοι (ραβδο γραμμα, κυκλικο δια γραμμα συχνοτη των, δια γραμμα/πολυ γωνο συχνοτη των, ιστο γραμμα, φυλλογρα φημα συχνοτη των) αριθμητικα με τρα με τρα κεντρικη ς τα σης (με ση τιμη, κορυφη, δια μεσος, ποσοστημο ρια) με τρα διασπορα ς (ευ ρος, με ση απο κλιση, ενδοτεταρτημοριακη απο κλιση, διασπορα, τυπικη απο κλιση, με ση διασπορα κατα Gini ) θηκογρα μματα με τρα σχετικη ς μεταβλητο τητας μετασχηματισμοι δεδομε νων - κωδικοποι ηση Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 11 / 52
Α. Γραφικε ς με θοδοι - Πι νακας συχνοτη των Έστω τ.μ. X που περιγρα φει κα ποιο χαρακτηριστικο των στοιχει ων ενο ς πληθυσμου. Έστω τυχαι ο δει γμα (π.χ. με τρηση) X 1, X 2,..., X ν μεγε θους ν και x 1, x 2,..., x ν οι αντι στοιχες τιμε ς της τ.μ. (χαρακτηριστικα του πληθυσμου ) Έστω y 1, y 2,..., y k οι k διαφορετικε ς μεταξυ τους τιμε ς (k ν) Συχνο τητα ν i της τιμη ς y i ει ναι το πλη θος των x i που παι ρνουν την τιμη y i (προφανω ς ν 1 + ν 2 + + ν k = ν) Σχετικη συχνο τητα f i ει ναι το αντι στοιχο ποσοστο : f i = ν i ν = (i = 1, 2,..., k) ν i k j=1 ν j Πι νακας συχνοτη των: συνοψι ζει τις ποσο τητες y i, ν i (η f i ) (i = 1, 2,..., k) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 12 / 52
Παρα δειγμα πι νακα συχνοτη των Σε δει γμα 42 αποφοι των ενο ς αμερικανικου πανεπιστημι ου τα αρχικα ετη σια εισοδη ματα τους (σε χιλ. ευρω ) βρε θηκαν ως εξη ς: Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 13 / 52
Αθροιστικε ς συχνο τητες Για ποσοτικα δεδομε να, ορι ζονται επιπλε ον οι ποσο τητες: αθροιστικη συχνο τητα N i : πλη θος τιμω ν μικρο τερες η ι σες του y i αθροιστικη σχετικη συχνο τητα F i : ποσοστο τιμω ν μικρο τερες η ι σες του y i Αν διατα ξω τα y i : y 1 y 2 y k, το τε προφανω ς: N i = ν 1 + ν 2 + + ν i (i = 1, 2,..., k) F i = f 1 + f 2 + + f i (i = 1, 2,..., k) N 1 = ν 1, N i = N i 1 + ν i (i = 2,..., k) F 1 = f 1, F i = F i 1 + f i (i = 2,..., k) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 14 / 52
Παρουσι αση δεδομε νων (Ι) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 15 / 52
Παρουσι αση δεδομε νων (ΙΙ) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 16 / 52
διαδοχικα ορθογω νια, το υ ψος του καθενο ς ει ναι τε τοιο ω στε το εμβαδο ν του να ει ναι ι σο με την αντι στοιχη συχνο τητα. προφανω ς το συνολικο εμβαδο ει ναι ι σο με το με γεθος του δει γματος ν (για σχετικη συχνο τητα το εμβαδο αθροι ζει σε 1). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 17 / 52 Παρουσι αση δεδομε νων - Ιστο γραμμα Ιστο γραμμα συχνοτη των
Παρουσιαση ποσοτικων δεδομενων - Ομαδοποιηση (Ι) Οι μεθοδοι αυτοι δεν οπτικοποιουν καλα τα στατιστικα δεδομενα οταν αυτα ειναι σχετικα πολλα π.χ. ο ακολουθος πινακας εχει τις διαρκειες ζωης 200 λαμπτηρων. Σωτηρης Νικολετσεας, αναπληρωτης καθηγητης 10ο Μάθημα Πιθανότητες 18 / 52
Παρουσιαση ποσοτικων δεδομενων - Ομαδοποιηση (ΙΙ) Όταν το τυχαιο δειγμα ειναι μεγαλο, οι τιμες πρεπει να ομαδοποιουνται σε μικρο πληθος ομαδων,θεωρωντας τις (παραπλησιες) τιμες μιας ομαδας ιδιες, π.χ. Πραγματι, η παραπανω ομαδοποιηση (σε 10 διαστηματα πλατους 100) προσφερει πολυ περισσοτερη πληροφορια για το δειγμα. Σωτηρης Νικολετσεας, αναπληρωτης καθηγητης 10ο Μάθημα Πιθανότητες 19 / 52
Παρουσι αση ποσοτικω ν δεδομε νων - Ομαδοποι ηση (ΙΙΙ) Ο αριθμο ς των κλα σεων ομαδοποι ησης δεν πρε πει να ει ναι πολυ μεγα λος (γιατι το τε δεν προκυ πτει συνοπτικη γενικη εικο να του δει γματος) ου τε πολυ μικρο ς (γιατι το τε χα νεται η λεπτομε ρεια). Συνη θως, επιλε γονται 5-10 κλα σεις. Πιο συστηματικα, η ομαδοποι ηση ει ναι καλο να γι νεται ως εξη ς: 1. Επιλογη του αριθμου q των ομα δων (η διαστημα των η κλα σεων), ενδεικτικα συ μφωνα με τον ακο λουθο τυ πο του Sturges : q = 1 + 3.32 log 10 ν 2. Προσδιορισμο ς του πλα τους των κλασεων (ι διου για ο λες τις κλασεις). Αν R = max{x i } min{x i } (i = 1, 2,..., ν) ει ναι το ευ ρος του δει γματος, το τε το πλα τος c λαμβα νεται ενδεικτικα ως: c = R q (Οι στρογγυλοποιη σεις των q, c γι νονται προφανω ς προς τα πα νω, ω στε να καλυφθου ν ο λες οι τιμε ς). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 20 / 52
Παρουσι αση ποσοτικω ν δεδομε νων - Ομαδοποι ηση (ΙΙΙ) 3. Καθορισμο ς διαστημα των: - Το πρω το δια στημα επιλε γεται ω στε να περιε χει την μικρο τερη τιμη του δει γματος, και το τελευται ο τη μεγαλυ τερη. - Το σημει ο αρχη ς επιλε γεται ω στε καμμι α τιμη να μην συμπι πτει με το α κρο κα ποιου διαστη ματος (για να αποφευ γεται η συ γχυση σχετικα με το που ανη κει η τιμη ). Το εμβαδο ν κα θε ορθογωνι ου ισου ται με τη συχνο τητα των τιμω ν σε κα θε κλα ση, και το υ ψος του ει ναι ανα λογο της συχνο τητας της κλα σης. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 21 / 52
Φυλλογρα φημα (stem-leaf plot ) Προ κειται για νεω τερη με θοδο. Διαδικασι α κατασκευη ς: κα θε τιμη πρω τα χωρι ζεται σε δυ ο με ρη, το stem και το leaf. επιλε γουμε τα stems (οδηγου ντα ψηφι α) και τα leaves (επο μενα ψηφι α). (π.χ. σαν stems θεωρου με τον αριθμο των δεκα δων και leaves τον αριθμο των μονα δων). π.χ ο αριθμο ς 63 γι νεται stem: 6 και leaf: 3 και οι αριθμοι 63 και 68 γι νονται stem: 6 και leaf: 3, 8 καταγρα φουμε για κα θε τιμη του δει γματος το stem και leaf. διατα σσουμε τα stems, και για κα θε stem διατα σσουμε τα leaves. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 22 / 52
Φυλλογραφημα - παραδειγμα Παραδειγμα: οι μεσες ετησιες θερμοκρασιες (σε βαθμους Fahrenheit ) σε 35 πολεις των Η.Π.Α. αναπαριστανται σε μορφη stem-leaf plot ως εξης: Σωτηρης Νικολετσεας, αναπληρωτης καθηγητης 10ο Μάθημα Πιθανότητες 23 / 52
Φυλλογρα φημα (ΙΙ) Ουσιαστικα το φυλλογρα φημα ει ναι ενα οριζο ντιο ιστο γραμμα, αλλα επιπλε ον διατηρει τις επιμε ρους τιμε ς του δει γματος, οπο τε αμε σως φαι νεται αν μια τιμη ανη κει στο δει γμα η ο χι. Όπως με τις κλα σεις στο ιστο γραμμα, ε τσι η επιλογη των stems επηρεα ζει σημαντικα την μορφη (και ουσιαστικα την ακρι βεια) του φυλλογρα μματος. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 24 / 52
Β. Αριθμητικα περιγραφικα με τρα Δυ ο βασικα ποιοτικα στοιχει α (σε σχε ση με τα γραφικα ) πολυ πιο συνοπτικη πληροφορι α για το δει γμα χρησιμευ ουν σε μια συστηματικη μελε τη δει γματος, ο πως στην στατιστικη συμπερασματολογι α Δυ ο βασικε ς κατηγορι ες: με τρα θε σης η κεντρικη ς τα σης με τρα διασπορα ς η μεταβλητο τητας Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 25 / 52
Β1. Με τρα κεντρικη ς τα σης - Δειγματικη Με ση τιμη (I) Έστω x 1, x 2,..., x ν οι τιμε ς του δει γματος, και y 1, y 2,..., y k οι διαφορετικε ς μεταξυ τους τιμε ς. Έστω ν i, y i οι αντι στοιχες συχνο τητες και ν = ν 1 + ν 2 + + ν k το με γεθος του δει γματος. Ορισμο ς (με ση τιμη η δειγματικη με ση τιμη ): x = 1 ν x i ν i=1 k i=1 Ισοδυ ναμα, x = ν i y k i k i=1 ν = f i y i i i=1 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 26 / 52
Με τρα κεντρικη ς τα σης - Δειγματικη Με ση τιμη (II) Παρα δειγμα. Οι ηλικι ες των 54 μελω ν μιας ορχη στρας ει ναι: Η δειγματικη με ση ηλικι α ει ναι: x = (15 2+16 5+17 11+18 9+19 14+20 13)/54 18.24 Η δειγματικη με ση τιμη υπολογι ζεται ευ κολα και συνοψι ζει μονοση μαντα το δει γμα. Ωστο σο, η ακρι βεια της επηρεα ζεται ε ντονα απο ενδεχο μενες ακραι ες τιμε ς π.χ. αν x i = 1, i = 1, 2,..., 100 και x 101 = 10.000 το τε x = 100. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 27 / 52
Με τρα κεντρικη ς τα σης - κορυφη, δια μεσος Κορυφη (mode ) η επικρατου σα τιμη : η τιμη με τη μεγαλυ τερη συχνο τητα (συμβολι ζεται M 0 ). π.χ στο προηγου μενο παρα δειγμα ει ναι M 0 = 19 (με συχνο τητα 14). Δια μεσος (median ) δ. Ει ναι η τιμη που χωρι ζει το δει γμα σε δυ ο ι σα με ρη, δηλαδη ο αριθμο ς των τιμω ν που ει ναι μικρο τερες η ι σες απο το δ ει ναι ι σος με τον αριθμο των τιμω ν που ει ναι μεγαλυ τερες η ι σες απο το δ. Αν διατα ξουμε τις τιμε ς σε αυ ξουσα σειρα και συμβολι σουμε με x (1) x (2) x (ν) το τε: δ = { x (r), αν ν = 2r 1 x (r) +x (r+1) 2, αν ν = 2r π.χ. στο παρα δειγμα μας οι διατεταγμε νες συχνο τητες ει ναι: 2, 5, 9, 11, 13, 14 και το με γεθος του δει γματος ει ναι 54 (ν = 27) οπο τε δ = x (27)+x (28) 2 = 17+20 2 = 18.5 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 28 / 52
Με τρα κεντρικη ς τα σης - ποσοστημο ρια Γενικευ ουν την ε ννοια της διαμε σου: το α-οστο ποσοστημο ριο P α (0 < α < 1) ει ναι η τιμη για την οποι α 100α% των τιμω ν ει ναι μικρο τερες η ι σες απο αυτη ν, ενω 100(1 α)% μεγαλυ τερες η ι σες της. Ιδιαι τερη χρησιμο τητα ε χουν τα τεταρτημο ρια, που προκυ πτουν για α = 0.25, α = 0.50, α = 0.75: - To P 0.25 συμβολι ζεται με Q 1 και λε γεται πρω το τεταρτημο ριο. - To P 0.75 συμβολι ζεται με Q 3 και λε γεται τρι το τεταρτημο ριο. - Προφανω ς, το δευ τερο τεταρτημο ριο (Q 2, για α = 0.5) ισου ται με τη δια μεσο δ. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 29 / 52
Με τρα κεντρικη ς τα σης - ποσοστημο ρια (II) Παρα δειγμα. Τα επι πεδα θορυ βου σε κεντρικο σημει ο της πο λης σε 36 μετρη σεις βρε θηκαν ω ς εξη ς: 82, 89, 94, 110, 74, 122, 112, 95, 100, 78, 65, 60, 90, 83, 87, 75, 114, 85, 69, 94, 124, 115, 107, 88, 97, 74, 72, 68, 83, 91, 90, 102, 77, 125, 108, 65 Το αντι στοιχο stem-leaf plot ει ναι: Οπο τε Q 1 = x (9)+x (10) 2 = 75+77 2 = 76, Q 2 = x (18)+x (19) 2 = 89+90 2 = 89.5, Q 3 = x (27)+x (28) 2 = 102+107 2 = 104.5 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 30 / 52
Με τρα κεντρικη ς τα σης για ομαδοποιημε να δεδομε να δεν μπορου με να κα νουμε ακριβη υπολογισμο των παραμε τρων κεντρικη ς τα σης ο ταν οι τιμε ς ε χουν υποστει ομαδοποι ηση. ωστο σο, καλε ς προσεγγι σεις προκυ πτουν αν οι τιμε ς μιας κλα σης αντιπροσωπευ ονται απο την κεντρικη τιμη της κλα σης (το ημια θροισμα των α κρων της) ο αναλυτικο ς τρο πος υπολογισμου των δειγματικω ν παραμε τρων δι νεται στις σημειω σεις. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 31 / 52
Β2. Με τρα διασπορα ς η μεταβλητο τητας Τα με τρα θε σης προσφε ρουν κα ποια πληροφορι α για το δει γμα, δεν επαρκου ν ο μως για να το περιγρα ψουν με ικανοποιητικη ακρι βεια. Χαρακτηριστικα, στο ακο λουθο παρα δειγμα δι νονται 6 δει γματα του, που ενω ε χουν ι δια με ση τιμη x = 23 και δια μεσο δ = 23, προφανω ς ει ναι πολυ διαφορετικα μεταξυ τους: δει γμα 1: 14, 18, 23, 28, 32 δει γμα 2: 17, 17, 23, 29, 29 δει γμα 3: 21, 23, 23, 23, 25 δει γμα 4: 14, 16, 23, 30, 32 δει γμα 5: 17, 20, 23, 26, 29 δει γμα 6: 21, 22, 23, 24, 25 Προκειμε νου ακριβω ς να μελετηθου ν οι αποκλι σεις των τιμω ν του δει γματος απο τα με τρα κεντρικη ς τα σης, χρησιμοποιου νται επιπλε ον ορισμε να με τρα διασπορα ς. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 32 / 52
Με τρα Διασπορα ς 1. Ευ ρος R: η διαφορα της μικρο τερης τιμη ς απο τη μεγαλυ τερη τιμη. Παρατη ρηση: το ευ ρος λαμβα νει υπο ψη μο νο τις ακραι ες τιμε ς και ο χι ο λες τις τιμε ς του δει γματος. 2. Ενδοτεταρτημοριακη απο κλιση: ει ναι η διαφορα Q 3 Q 1 του πρω του τεταρτημο ριου (Q 1 ) απο το τρι το (Q 3 ). Παρατη ρηση: το δια στημα αυτο περιλαμβα νει το 50% των τιμω ν, και ο σο μικρο τερο ει ναι το σο μεγαλυ τερη η συγκε ντρωση των τιμω ν και α ρα το σο μικρο τερη ει ναι η διασπορα των τιμω ν. Συχνα υπολογι ζεται το μισο της διαφορα ς Q 3 Q 1 : Q = Q 3 Q 1 2 και το Q καλει ται ημιενδοτεταρτημοριακη απο κλιση. Παρατη ρηση: προφανω ς το Q δεν λαμβα νει υπο ψη ο λες τις τιμε ς του δει γματος. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 33 / 52
Με τρα Διασπορα ς (ΙΙ) 3. Με ση απο κλιση MD. Έιναι MD = 1 ν x i x ν i=1 ο που x η δειγματικη με ση τιμη. Για πι νακες συχνοτη των, ει ναι: MD = 1 k ν i y ν i x i=1 και για ομαδοποιημε να δεδομε να παι ρνουμε αντι για y i τις κεντρικε ς τιμε ς των κλα σεων. Παρατη ρηση: μια μικρη με ση απο κλιση παραπε μπει σε ισχυρη συγκε ντρωση γυ ρω απο τη με ση τιμη. 4. Διασπορα. Έιναι: s 2 = 1 ν 1 ν (x i x) 2 i=1 Παρατη ρηση: ει ναι η βασικο τερη παρα μετρος Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 34 / 52
Με τρα Διασπορα ς (ΙΙΙ) 5. Τυπικη απο κλιση. Επειδη η διασπορα εκφρα ζεται σε μονα δα με τρησης που ει ναι το τετρα γωνο της μονα δας με τρησης του χαρακτηριστικου, λαμβα νουμε την τετραγωνικη της ρι ζα (που εκφρα ζεται ακριβω ς στη μονα δα με τρησης του χαρακτηριστικου ): s = 1 ν 1 ν i=1 (x i x) 2 Παρατη ρηση: η σημασι α της τυπικη ς απο κλισης ε χει φανει απο την ανισο τητα Chebyshev (δια λεξη 6), συ μφωνα με την οποι α, για στατιστικα δεδομε να οποιασδη ποτε κατανομη ς, τουλα χιστον το 75%, 88.89% η 93.75% των δεδομε νων βρι σκονται ±2, ±3, ±4 τυπικε ς αποκλι σεις (αντι στοιχα) γυ ρω απο τη με ση τιμη. 6. Με ση διαφορα κατα Gini. Ει ναι: d = 1 ν ν ν 2 i=1 j=1 x i x j προ κειται δηλαδη για την με ση απο λυτη διαφορα ο λων των μετρη σεων μεταξυ τους (ανα δυ ο). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 35 / 52
Θηκογρα μματα (box plots ) Συνοψι ζουν τα κυριο τερα χαρακτηριστικα του δει γματος. μη κος θηκογρα μματος: ευ ρος R μη κος box : ενδοτεταρτημοριακη απο κλιση (2Q = Q 3 Q 1 ) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 36 / 52
Θηκογρα μματα (box plots ) Πολλα θηκογρα μματα στην ι δια γραφικη παρα σταση μπορου ν να αναπαριστου ν μετρη σεις απο πολλα συ νολα δεδομε νων π.χ. την ενε ργεια που καταναλω νεται σε ε να δι κτυο για διαφορετικε ς πυκνο τητες του δικτυ ου ο πως προκυ πτει απο πειραματικη υλοποι ηση πολλαπλω ν επαναλη ψεων. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 37 / 52
Με τρα σχετικη ς μεταβλητο τητας Συντελεστη ς μεταβλητο τητας CV: τυπικη απο κλιση CV = s x = με ση τιμη 100% Χρησιμοποιει ται για συγκρι σεις ομα δων τιμω ν ως προς την ομοιογε νεια τους. Συγκρι νεται ο χι η απο λυτη μεταβλητο τητα αλλα η σχετικη. Ένα τυχαι ο δει γμα θεωρει ται ομοιογενε ς εα ν ο CV ει ναι, ενδεικτικα, μικρο τερος απο 10% περι που. Παρα δειγμα: Έστω ο τι για τους μηνιαι ους μισθου ς 30 υπαλλη λων μιας εταιρει ας Α ει χαμε με σο ο ρο 1200 Ευρω και τυπικη απο κλιση 75 Ευρω, ενω για τους μισθου ς 20 υπαλλη λων μιας δευ τερης εταιρει ας Β ει χαμε με σο ο ρο 500 ευρω και τυπικη απο κλιση 70 ευρω. Έτσι για την εταιρει α Α ε χουμε: CV A = 75 1200 100% = 6.25% ενω για την εταιρει α B ε χουμε: CV B = 70 500 100% = 14% και η εταιρει α Α ε χει πολυ πιο ομοιογενει ς μισθου ς (αν και η απο κλιση τους ει ναι μεγαλυ τερη απο τους μισθου ς της Β). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 38 / 52
Γ. Ζευγη στατιστικων δεδομενων (paired data sets ) Σε πολλες περιπτωσεις το τυχαιο δειγμα ουσιαστικα αποτελειται απο ζευγη τιμων που εχουν καποια σχεση. Δηλαδη, το i-οστο στοιχειο του δειγματος ειναι ενα ζευγος (xi, yi ). Παραδειγμα: μια εταιρεια ερευνα τη σχεση της καθημερινης μεσημεριανης θερμοκρασιας (σε C) με τον αριθμο των ελαττωματικων προιοντων που παραγονται καθε μερα. Για την αναπαρασταση, χρησιμοποιειται συνηθως ενα scatter διαγραμμα: Σωτηρης Νικολετσεας, αναπληρωτης καθηγητης 10ο Μάθημα Πιθανότητες 39 / 52
Συσχε τιση ζευγω ν δεδομε νων (correlation of paired data ) Αναζητει ται κα ποια σχε ση μεταξυ των τιμω ν x και των τιμω ν y. π.χ. αν μεγα λες τιμε ς του x συνδε ονται με μεγα λες τιμε ς του y η αν αντιθε τως μεγα λες τιμε ς του x συνδε ονται με μικρε ς τιμε ς του y Μια πρω τη αναζη τηση δι νει το scatter diagram π.χ. φαι νεται οτι μεγα λες θερμοκρασι ες συνδε ονται με περισσο τερα ελαττωματικα προιο ντα. Η ποσοτικο ποι ηση γι νεται με τον δειγματικο συντελεστη συσχε τισης: r = n i=1 (x i x)(y i ȳ) (n 1)s x s y ο που x, ȳ οι δειγματικε ς με σες τιμε ς και s x, s y οι τυπικε ς αποκλι σεις. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 40 / 52
Συσχε τιση ζευγω ν δεδομε νων (ΙΙ) Ει ναι προφανε ς πως: αν μεγα λες τιμε ς του x συνδε ονται με μεγα λες τιμε ς του y και μικρε ς τιμε ς του x συνδε ονται με μικρε ς τιμε ς του y το τε τα (x i x) και (y i ȳ) θα ε χουν σε κα θε περι πτωση το ι διο προ σημο, οπο τε το γινο μενο θα ει ναι θετικο. στην αντι θετη περι πτωση τα γινο μενα θα ει ναι αρνητικα. Δηλαδη, ο ταν r > 0, υπα ρχει θετικη συσχε τιση, ενω ο ταν το r ει ναι αρνητικο, μιλα με για αρνητικη συσχε τιση. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 41 / 52
Ιδιο τητες του συντελεστη συσχε τισης 1. 1 r 1 2. Αν a, b > 0 σταθερε ς και y i = bx i + a (i = 1,..., n) το τε r = 1 3. Αν a, b < 0 σταθερε ς και y i = bx i + a (i = 1,..., n) το τε r = 1 4. Αν r ει ναι ο συντελεστη ς συσχε τισης των x i, y i, το τε ο συντελεστη ς συσχε τισης των + bx i, c + dy i (i = 1,..., n) ει ναι κι αυτο ς r, αρκει τα b, d να ει ναι και τα δυ ο θετικα ει τε και τα δυ ο αρνητικα. (Η τελευται α σχε ση ουσιαστικα υποδεικνυ ει την ανεξαρτησι α του r απο συγκεκριμε νες μονα δες με τρησης π.χ. αν μετρα με σε Km η miles, o C η o F, κλπ). Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 42 / 52
Ιδιοτητες του συντελεστη συσχετισης (ΙΙ) Ενδιαφερον παρουσιαζει η απολυτη τιμη του r, r, που αποτελει μετρο της γραμμικοτητας της συσχετισης (θετικης η αρνητικης). αν r = 1, υπαρχει τελεια γραμμικη σχεση των xi και yi, δηλαδη μια ευθεια γραμμη περναει απο ολα τα σημεια (xi, yi ) στο scatter διαγραμμα. αν r 0.8, η γραμμικη σχεση θεωρειται σχετικα ισχυρη (και μια ευθεια περναει αρκετα κοντα απο ολα τα σημεια) αν r 0.3, η γραμμικη σχεση θεωρειται σχετικα αδυναμη. το προσημο του r δειχνει την θετικη η αρνητικη συσχετιση. Παραδειγμα: στο διαγραμμα θερμοκρασιων - ελαττωματικων προι οντων ειναι r = 0.4189, γεγονος που υποδεικνυει μια σχετικα μικρη θετικη συχετιση Σωτηρης Νικολετσεας, αναπληρωτης καθηγητης 10ο Μάθημα Πιθανότητες 43 / 52
Ιδιο τητες του συντελεστη συσχε τισης 1) Απο δειξη της σχε σης r 1. Απο δειξη: Προφανω ς i (x i x) 2 s 2 + i x i ( xi x s x y i ȳ ) 2 0 (1) s y (y i ȳ) 2 s 2 2 y i n 1 + n 1 2(n 1)r 0 r 1 ( xi x Παρομοι ως, ξεκινω ντας απο παι ρνουμε r 1. i (x i x)(y i ȳ) s x s y s x 0 + y i ȳ ) 2 0 s y Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 44 / 52
Ιδιο τητες του συντελεστη συσχε τισης 2) Απο δειξη τε λειας γραμμικη ς, θετικη ς συσχε τισης ανν r = 1 Απο δειξη: r = 1 ( xi x y i ȳ ) 2 = 0 s i x s y Αυτο γι νεται αν και μο νο αν i = 1, 2,..., n: x i x s x = y i ȳ s y y i = ȳ sy s x x + sy s x x i και αρκει να πα ρουμε σταθερε ς b = sy s x πρα γματι > 0 και a = ȳ sy s x ω στε y i = b x i + a (b > 0) Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 45 / 52
Δ. Μετασχηματισμοι δεδομε νων (Ι) Έστω τ.μ. X με ν μετρη σεις x 1, x 2,..., x ν οπο τε x = 1 ν x i ν i=1 Αυτε ς τις μετρη σεις, τις μετασχηματι ζω στις ακο λουθες: y i = a x i + b (a, b σταθερε ς) που αντιστοιχου ν στην τ.μ. Y = a X + b Η δειγματικη με ση τιμη της Y ει ναι ȳ = a x + b, γιατι : ȳ = 1 ν (a x i + b) = 1 ν ν ν a x i + 1 ν bν = ( i=1 ) i=1 1 ν = a x i + b = a x + b ν i=1 Για την δειγματικη διασπορα αποδεικνυ εται παρομοι ως ο τι s 2 y = a 2 s 2 x Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 46 / 52
Μετασχηματισμοι δεδομε νων (ΙΙ) Οι μετασχηματισμοι διευκολυ νουν πολυ στον υπολογισμο παραμε τρων. π.χ. οι βαθμολογι ες των νικητω ν σε ε να τουρνουα γκολφ τα τελευται α 10 χρο νια η ταν: 284 280 277 282 279 285 281 283 278 277 Για να βρου με τη δειγματικη με ση τιμη μετασχηματι ζουμε αυτε ς τις μετρη σεις x i στις ακο λουθες μετρη σεις y i (αφαιρου με 280 απο κα θε με τρηση): 4, 0, -3, 2, -1, 5, 1, 3, -2, -3 Ει ναι δηλαδη y i = x i 280, και ευ κολα υπολογι ζουμε ο τι ȳ = 6 10 = 0.6 Άρα: x = ȳ + 280 = 280.6 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 47 / 52
Παρε νθεση: Σχετικα με τον υπολογισμο της δειγματικη ς διασπορα ς - Η δειγματικη διασπορα ει ναι: s 2 = 1 n (x i x) 2 n 1 i=1 - Μια χρη σιμη ιδιο τητα για την απλοποι ηση ( του υπολογισμου της n n ) διασπορα ς, ει ναι η: (x i x) 2 = n x 2 i=1 n n Απο δειξη: (x i x) 2 = (x 2 i 2 xx i + x 2 ) = i=1 i=1 ( n n n n ) = x 2 i 2 x x i + x 2 = x 2 i 2 x n x + n x 2 = ( i=1 i=1 i=1 i=1 n ) = n x 2 i=1 x 2 i Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 48 / 52 i=1 x 2 i
Παρε νθεση: Μια α λλη απλοποι ηση του υπολογισμου της διασπορα ς - Αν y i = a + b x i s 2 y = b 2 s x Απο δειξη: Ει ναι: ȳ = a + b x οπο τε n n (y i ȳ) 2 = (a + bx i a b x) 2 = i=1 i=1 n n = [b(x i x)] 2 = b 2 (x i x) 2 i=1 i=1 και η σχε ση προκυ πτει διαιρω ντας με n 1. Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 49 / 52
Παρα δειγμα Οι αριθμοι των καταστροφικω ν αεροπορικω ν ατυχημα των παγκοσμι ως τα τελευται α 9 ε τη βρε θηκαν ω ς εξη ς: Έτος: 1 2 3 4 5 6 7 8 9 Ατυχη ματα: 22 22 26 28 27 25 30 29 24 Για να βρου με τη δειγματικη διασπορα του δει γματος αφαιρου με το 22 απο ο λες τις τιμε ς x i και παι ρνουμε τις y i = x i 22: 0, 0, 4, 6, 5, 3, 8, 7, 2 9 οπο τε ȳ = y i = 35 9 9 και y 2 i = 16 + 36 + + 4 = 203 Άρα i=1 9 (y i ȳ) 2 = i=1 οπο τε s 2 y = ( i=1 9 y 2 i i=1 ) 203 9( 35 9 ) 2 8 8.361 Αλλα s 2 y = 1 2 s 2 x s 2 x 8.361 9ȳ 2 = 203 9 ( ) 35 2 9 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 50 / 52
Βασικη Βιβλιογραφι α Εισαγωγη στις Πιθανο τητες και τη Στατιστικη, Χ. Δαμινο ς, Ν. Παπαδα τος, Χ. Α. Χαραλαμπι δης, Τμη μα Μαθηματικω ν Πανεπιστη μιο Αθηνω ν, 2003 Introduction to Probability and Statistics for Engineers and Scientists, Sheldon M. Ross, 2004 Πιθανο τητες & Στατιστικη, Γ. Κονο μος, Γκιου ρδας Εκδοτικη, 2009 Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 51 / 52
Σωτη ρης Νικολετσε ας, αναπληρωτη ς καθηγητη ς 10ο Μάθημα Πιθανότητες 52 / 52