Πιθανότητες ιαφάνειες για το µάθηµα Information Management ΑθανάσιοςΝ. Σταµούλης 1 ΠΗΓΗ Κονδύλης Ε. (1999) Στατιστικές τεχνικές διοίκησης επιχειρήσεων, Interbooks 2 1
Βασικοί όροι Πείραµα: ιαδικασία Παρατήρησης ή/και Μέτρησης (που µπορεί να επαναληφθεί υπό τις ίδιες συνθήκες). ειγµατικός Χώρος (Ω): Το Σύνολο (δηλ. η Ολότητα) όλων τωνδυνατώναποτελεσµάτωνενόςπειράµατος. ρ = {ω 1,ω 2,..., ω η } Ενδεχόµενο (Α): ΈναυποσύνολοτουδειγµατικούΧώρου. ΕάντοΑδενµπορείναυποδιαιρεθείσεεπιµέρουςµικρότερα, λέγεται απλό ή στοιχειώδες ενδεχόµενο. Ένα ενδεχόµενο στην ορολογία των Συνόλων λέγεται και ειγµατικό Σηµείο: 3 Ορισµός πιθανοτήτων Πιθανότητα: είναι ένα µέτρο της αβεβαιότητας που χαρακτηρίζει την εµφάνιση "ενδεχοµένων" σε ένα "πείραµα". Η πιθανότητα P(A) είναι ο λόγος: Αριθµός "Ευνοϊκών" Περιπτώσεων Συνολ. Αριθµ. " υνατών" Περιπτώσεων Η πιθανότητα να πάρουµε ένα "σπαθί" από µια συνήθη τράπουλα είναι: Ρ ("Σπαθί") = Αριθµός "Σπαθιών"/ Σύνολο Παιγνιόχαρτων = 13/52 = 1/4 = 0.25 4 2
P(A)>=0 P(Ω)=1 Αξιώµατα πιθανοτήτων P(A+B) = P(A ή B)= P(A)+P(B) ανατοµήβ=0 (Αµοιβαία αποκλειόµενα) Συνέπειες των αξιωµάτων Kolmogorov P(A)<=1 P(Όχι A)=1-P(A) P( Σπαθί ή Καρό )= P( Σπαθί )+P( Καρό )= 13/52 + 13/52 =1/2=0.5 P( Άσσος ή Ντάµα )= P( Άσσος )+P( Ντάµα )= 4/52 + 4/52 =8/52=0.154 5 ΣυνδυασµόςΑκαιΒ (Α, Βανεξάρτητα) P(AB) = P(A και B)= P(A)P(B) Ηπιθανότηταναεµφανιστούν 4 κορώνεςσε 4 διαδοχικές ρίψεις νοµίσµατος P( Κορώνα και Κορώνα και Κορώνα και Κορώνα )= P( Κορώνα )P( Κορώνα ) P( Κορώνα )P( Κορώνα )= 1/2*1/2*1/2*1/2 =1/16 6 3
ΣυνδυασµόςΑκαιΒ (Α, Βεξαρτηµένα) P(AB) = P(A και B)= P(A)P(B Α)µεΡ(Α)<>0 P(AB) = P(A και B)= P(Β)P(Α Β)µεΡ(Β)<>0 P(B Α) σηµαίνει εµφάνιση του Β υπό την προϋπόθεση ότι το Α έχει εµφανιστεί (ενδεχόµενο Β υπό την συνθήκη Α). Ηπιθανότηταναπάρουµε 4 χαρτιάκαιναείναικαι τα τέσσερα άσσοι: Ρ(Α 1 Α 2 Α 3 Α 4 )= Ρ(Α 1 καια 2 καια 3 καια 4 )= P(Α 1 )P(Α 2 Α 1 )P(Α 3 Α 1 Α 2 )P(Α 4 Α 1 Α 2 Α 3 )= 4/52*3/51*2/50*1/49=24/6.497.400=0.0000036 7 Θεώρηµα του BAYES Η πιθανότητα κάποιο εµφανιζόµενο ενδεχόµενο Β να οφείλεταισεσυγκεκριµένοα i (δηλαδήσεένααπόταδυνατά ενδεχόµεναα 1,Α 2,Α 3, Α n ) P(Α i B)=P(Α i B)/P(B)= P(Α i )*P(B Α i )/ΣP(Α i )*P(B Α i ) ΈστωτακουτιάΑ 1,Α 2,Α 3 µεδύονοµίσµατατοκαθένακαι κατανοµήα 1= {Χρ., Χρ.} Α 2= {Χρ., Ασ.} Α 3= {Ασ., Ασ.} Έστω ότι λαµβάνουµε ένα νόµισµα και είναι χρυσό. Ποια είναιηπιθανότηταναπροέρχεταιαπότοκουτία 1? Β = Χρυσό Ρ(Α 1 Β)= =Ρ(Α 1 )*Ρ(Β Α 1 )/ [Ρ(Α 1 )*Ρ(Β Α 1 )+Ρ(Α 2 )*Ρ(Β Α 2 )+Ρ(Α 3 )*Ρ(Β Α 3 )]= =(1/3)*1/ [(1/3)*1+(1/3)*(1/2)+(1/3)*0] =2/3 8 4
Τυχαία µεταβλητή Τα δυνατά ενδεχόµενα ενός πειράµατος Μια Κατανοµή συχνοτήτων περιγράφει πόσο συχνά αναµένεται να εµφανιστούν τα διάφορα ενδεχόµενα ενός πειράµατος. Τα ενδεχόµενα προσδιορίζονται από τις αντίστοιχες τιµές της τυχαίας µεταβλητής. 9 ιωνυµική κατανοµή O όρος "διωνυµική" σηµαίνει ότι η κατανοµή περιέχει δύο ονόµατα (ή κατηγορίες ή ενδεχόµενα). Π.χ. κορώνα-γράµµατα στη ρίψη ενός νοµίσµατος, επιτυχία-αποτυχία, ναιόχι, αποδεκτήποιότητα-απαράδεκτηποιότητα, ασπρόµαυρο, καπνίζοντες- µηκαπνίζοντες, κτλ. Γενικά, µπορούµε να θεωρήσουµε σαν µία κατηγορία αυτή που έχει το χαρακτηριστικό που µας ενδιαφέρει (π.χ. καπνίζοντες) και σαν µία άλλη αυτή που το στερείται (π.χ. µη καπνίζοντες). Έστωλοιπόνότι: p = η πιθανότητα εµφάνισης ενός ενδεχοµένου, που έχει το χαρακτηριστικό που µας ενδιαφέρει ("επιτυχία") σε ένα πείραµα q = 1 - p (δηλ. p + q = 1) n = αριθµός πανοµοιότυπων πειραµάτων. ιαφορετικά: αριθµός επαναλήψεων του ίδιου πειράµατος x = αριθµός (τυχαίαµεταβλητή) εµφάνισηςτουενδεχοµένου (x = 0, 1, 2, 3,..., n) που µας ενδιαφέρει σε n πανοµοιότυπες επαναλήψεις του ιδίου πειράµατος, όπου για κάθε µια επανάληψη η πιθανότητα εµφάνισης του ενδεχοµένου είναι p (σταθερή) Ρ x = ηπιθανότηταναεµφανισθεί xφορέςτοενδεχόµενοπουµας ενδιαφέρει σε n επαναλήψεις του πειράµατος Ρ x = n!*p x *q n-x /(x!*(n-x)!) 10 5
ιωνυµική κατανοµή παράδειγµα Σεέναπλήθοςπουπεριέχειίσηποσότητα ελαττωµατικών και µη ανταλλακτικών, αν τραβήξω τυχαία 5 φορές (χωρίς να το αφαιρώ), η πιθανότητα να βρω τρία ακριβώς ελαττωµατικά είναι: 5!*0.5 3 *0,5 5-3 /(3!*(5-3)!)=0.31 11 Κατανοµή Poisson Ανστηνδιωνυµικήκατανοµήηµιαεκδοχή εµφανίζεται σπάνια ή η πιθανότητά της δεν µπορεί να υπολογιστεί, τότε, αν ο µέσος όρος εµφάνισης του φαινοµένουείναιγνωστός, ηπιθανότηταρ x να συµβούν ακριβώς x εµφανίσεις στο ίδιο χρονικό διάστηµα (ή χώρο) υπολογίζεται από: Ρ x =(µ x * e -µ )/x! Σεµιααφετηρίαταξίφτάνουνκατάµέσοόρο 7 ταξί την ώρα. Ποια είναι η πιθανότητα στην επόµενη ώρα να φτάσουν 11 ταξί? Ρ 11 =(7 11 * 2.718282-7 )/11!=0.045 12 6
Κανονική Κατανοµή Είναισυνεχήςκατανοµήκαιµπορείναδώσειτηνπιθανότητα, µια τυχαία ποσοτική µεταβλητή να πάρει τιµή σε συγκεκριµένοδιάστηµα. Ο µέσος (µ) βρίσκεται ακριβώς στο κέντρο της κατανοµής και συµπίπτει µε τη διάµεσο και τη συχνότερη τιµή. Τοολικόεµβαδόνκάτωαπότηνκαµπύληείναι 1.0 (από 0.5 εκατέρωθεν του µέσου όρου µ). 13 Άλλες ιδιότητες Η "κωδωνοειδής" µορφή της υποδηλοί ότι οι µεγαλύτερες συχνότητες βρίσκονται γύρω από το µέσο, και οι µικρότερες στα άκρα. Η καµπύλη είναι συµµετρική, εκτεινόµενη απεριόριστα εκατέρωθεν του µέσου (µ) τείνει δε ασυµπτωτικά και αµφίπλευρα στον άξονα των x. Όσο πιο "πεπλατυσµένη" είναι, τόσο µεγαλύτερη τυπική απόκλιση υπάρχει για τον ίδιο µέσο (µ). 14 7
Τυποποιηµένη κανονική κατανοµή Η τιµή του µέσου (µ) µπορεί να είναι οποιαδήποτε τιµή (αρνητική, θετική ή µηδέν). Οποιαδήποτε κανονική κατανοµή τυχαίας µεταβλητής xµεµέσοµκαιτυπικήαπόκλισησ, µπορεί να µετασχηµατιστεί σε ΤΥΠΟΠΟΙΗΜΕΝΗ ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ µε µεταβλητή z, µέσο µ=0 και τυπική απόκλιση σ=1, βάσει του τύπου µετασχηµατισµού: z=(x-µ)/σ Οιτιµέςτης z,µετααντίστοιχαεµβαδά (πιθανότητες) δίνονταισετυποποιηµένουςπίνακες, που µπορούν να χρησιµοποιηθούν για υπολογισµούς πιθανοτήτων. 15 Παραδείγµατα πιθανοτήτων Εάν σε µια κανονική κατανοµή είναι µ=400 και σ=100, ποια είναι η πιθανότητα (εµβαδόν) εµφάνισης τιµών µεταξύ 250 και 500; z 1 = [(x 1 -µ)/σ] = [(250-400)/100] = (-150)/100=-1.5 z 2 = [(x 2 -µ)/σ] = [(500-400)/100] = 100/100 = 1.0 0.4332 από µ=0 µέχρι -1.5 0.3413 από µ=0 µέχρι 1 Σύνολο=0.7745=77.45% 16 8
Εµπειρικός κανόνας 17 ιάστηµα εµπιστοσύνης Ένα οποιοδήποτε διάστηµα (όπως µ±2σ ) εκατέρωθεν του µέσου όρου µίας κανονικής κατανοµής, και το οποίο µας ενδιαφέρει, το λέµε "διάστηµα εµπιστοσύνης. Το ποσοστό των τιµών που περιλαµβάνονται στο διάστηµα εµπιστοσύνης λέγεται επίπεδο ή συντελεστής εµπιστοσύνης Το ποσοστό των τιµών, που κείται εκτός ενός επιλεγέντος διαστήµατος εµπιστοσύνης, λέγεται επίπεδο σηµαντικότητας και συµβολίζεται µε το γράµµα α. Έχει την έννοια του "ρίσκου" που υπάρχει ναείναιµίατιµήεκτόςτουδιαστήµατοςεµπιστοσύνης. "ΕπίπεδοΕµπιστοσύνης" + "ΕπίπεδοΣηµαντικότητας" = 1 ή 100%. 18 9