Σημειώσεις στη Πληροφορική ΙΙΙ 1. Πείραμα τύχης και πιθαότητα Έα φυσικό φαιόμεο με χαρακτηριστικά που δε μπορούμε α τα προβλέψουμε, οομάζεται στοχαστικό ή τυχαίο. Για παράδειγμα το ύψος τω κυμάτω στη θάλασσα, ότα τα παρατηρούμε από κάποιο σταθερό σημείο, όπως επίσης και η περιοχή εκδήλωσης εός κεραυού. Ομοίως έα πείραμα του οποίου δε μπορούμε α προβλέψουμε το αποτέλεσμα οομάζεται στοχαστικό ή πείραμα τύχης. Τέτοιο πείραμα μπορεί α είαι η ρήψη εός κύβου ή η κλήρωση του λόττο. Δειγματικός χώρος εός πειράματος τύχης οομάζεται το σύολο όλω τω δυατώ αποτελεσμάτω του και συμβολίζεται συήθως με Ω. Κάθε στοιχείο του Ω οομάζεται απλό εδεχόμεο και κάθε υποσύολο του Ω, εδεχόμεο. Παράδειγμα 1. Στο πείραμα τύχης «ρήψη δύο ομισμάτω», ο δειγματικός χώρος αποτελείται από 4 απλά εδεχόμεα, Ω= { ΚΚ, ΚΓ, ΓΚ, ΓΓ } και το υποσύολο { ΚΚ, ΚΓ, ΓΚ } του Ω είαι το εδεχόμεο «α φέρω μια τουλάχιστο κεφαλή». Παράδειγμα 2. Έστω ότι μετράμε το ύψος εός τυχαία επιλεγμέου άδρα σπουδαστή του τμήματος Διατροφής και Διαιτολογίας του ΤΕΙ Κρήτης. Επειδή το αποτέλεσμα μπορεί α είαι οποιοσδήποτε αριθμός από 120(cm) έως 230(cm), μπορούμε α θεωρήσουμε ότι {[ 140,150 ),[ 160,170 ),...,[ 200, 210] } Ω=, που περιέχει 7 απλά εδεχόμεα. Εδώ στη πραγματικότητα το ύψος μπορεί α πάρει οποιαδήποτε τιμή στο διάστημα [ 140,210 ], όμως συήθως στη πράξη, τέτοιους δειγματικούς χώρους οι στατιστικολόγοι τους χωρίζου σε κλάσεις. Ω= 1, 2,..., ο δειγματικός Έστω τώρα ότι εκτελούμε έα πείραμα τύχης και { ω ω ω } χώρος του. Α σε κάθε απλό εδεχόμεο { ω } του Ω, ατιστοιχίσουμε έα μη αρητικό αριθμό p έτσι ώστε α ισχύει p1+ p2 +... + p = 1, τότε έχουμε ορίσει μία πιθαότητα P για κάθε εδεχόμεο A του πειράματος τύχης ως εξής P( A) = p. { ω A}
Το παραπάω άθροισμα σημαίει ότι αθροίζω τα p για όλους τους δείκτες τω στοιχείω ω που περιέχοται στο A. Α το A είαι το κεό σύολο, δηλαδή δε περιέχει καέα στοιχείο, τότε P( A ) = 0. Παράδειγμα 3. Στο πείραμα τύχης «ρήψη δύο ομισμάτω», όλα τα απλά εδεχόμεα θεωρούται ισοπίθαα μεταξύ τους, ω ΚΚ ΚΓ ΓΚ ΓΓ p 1/ 4 1/ 4 1/ 4 1/ 4 και για τη πιθαότητα του εδεχομέου A= { ΚΚ, ΚΓ, ΓΚ } θα έχουμε 1 1 1 P( A ) = + + 4 4 4 3 = 4 Επιλέξαμε τη παραπάω «μοτελοποίηση» γιατί δε υπάρχει καέας λόγος μια όψη τω ομισμάτω α είαι «πιθαότερη» στη εμφάιση της από τη άλλη. Παράδειγμα 4. Στο παράδειγμα 2 δε γωρίζουμε πως καταέμοται τα ύψη τω σπουδαστώ στις κλάσεις του δειγματικού χώρου και για το λόγο αυτό δε μπορούμε α προχωρήσουμε στη μοτελοποίηση, δηλαδή α ατιστοιχήσουμε μια πιθαότητα p σε κάθε κλάση. Μπορούμε όμως α εκτιμήσουμε αυτή τη πιθαότητα μετρώτας το ύψος σε έα τυχαίο δείγμα σπουδαστώ, ως εξής: Α 175 είαι η συχότητα της κλάσης [ 170,180 ) στο δείγμα, τότε 175 p 175 =. Όπου p 175 είαι η πιθαότητα του ατιστοιχούμε και ομοίως για όλες τις υπόλοιπες κλάσεις. 2. Τυχαία μεταβλητή Τυχαία μεταβλητή είαι μια απεικόιση τω στοιχείω του δειγματικού χώρου Ω του πειράματος τύχης στο σύολο τω (πραγματικώ) αριθμώ και συμβολίζεται συήθως με,y ή Z. Παράδειγμα 5. Στο πείραμα τύχης «ρήψη δύο ομισμάτω» μπορούμε α ορίσουμε μία τυχαία μεταβλητή ως εξής: ω ΚΚ ΚΓ ΓΚ ΓΓ ( ω) 0 1 2 3
Επειδή δε υπάρχει λόγος, για δύο «δίκαια» ομίσματα, α θεωρήσουμε κάποιο αποτέλεσμα του πειράματος πιθαότερο τω υπολοίπω, πραγματοποιούμε τη εξής «μοτελοποίηση»: 1 P( = 0) = P( = 1) = P( = 2) = P( = 3) =. 4 Α επααλάβουμε το πείραμα για έα αρκετά μεγάλο πλήθος δοκιμώ και καταγράψουμε τα αποτελέσματα τους, 0 0 1 1 2 2 3 3 τότε θα παρατηρήσουμε ότι v 4 0 1 2 3 και το ραβδόγραμμα συχοτήτω θα έχει τη παρακάτω μορφή 0 1 2 3 =0 =1 =2 =3 όπου όλες οι ράβδοι έχου περίπου το ίδιο ύψος. Σε αυτή τη περίπτωση λέμε ότι η τυχαία μεταβλητή ακολουθεί τη ομοιόμορφη καταομή. Παράδειγμα 6. Το ύψος τω σπουδαστώ του παραδείγματος 4 μπορεί α πάρει οποιαδήποτε τιμή στο διάστημα [ 140,210 ] και συεπώς μπορούμε α ορίσουμε μία τυχαία μεταβλητή η οποία «μετράει» το ύψος τω σπουδαστώ και παίρει τιμές στο ίδιο διάστημα. Επειδή όμως έχουμε χωρίσει το δειγματικό χώρο σε 7 κλάσεις θα ορίσουμε τη ως εξής: ω [140,150) [150,160) [160,170) [170,180) [180,190) [190, 200) [200, 210] ( ω) 145 155 165 175 185 195 205
Α μετρήσουμε το ύψος σε έα δείγμα σπουδαστώ αρκετά μεγάλου μεγέθους και καταγράψουμε τα αποτελέσματα, 145 1 155 2 165 3 175 4 185 5 195 6 205 7 θα προκύψει έα ραβδόγραμμα συχοτήτω της μορφής 4 3 5 2 6 1 7 =145 =155 =165 =175 =185 =195 =205. Σε αυτό το ραβδόγραμμα φαίεται ότι υπάρχει μία «μεσαία» κλάση [ 170,180 ) με τη μεγαλύτερη συχότητα 4, που είαι η πιθαότερη κλάση και μέσα σε αυτή βρίσκεται η μέση τιμή της. Α σχεδιάσουμε τη καμπύλη η οποία «προσεγγίζει» το παραπάω ραβδόγραμμα θα μοιάζει με μία καμπάα, 4 3 5 2 6 1 7
Σε αυτή τη περίπτωση λέμε ότι η τυχαία μεταβλητή ακολουθεί τη καοική καταομή. Η καοική είαι η σηματικότερη καταομή στη στατιστική και τη ακολουθού σχεδό όλα τα φυσικά μεγέθη. 3. Η καοική καταομή. Έστω μια τυχαία μεταβλητή που ακολουθεί τη καοική καταομή. Τότε η καμπύλη που περάει από τις κορυφές του ιστογράμματος θα μοιάζει με μία «καμπάα», της οποίας η θέση και το σχήμα καθορίζεται από τη μέση τιμή µ και τη τυπική απόκλιση σ της. Η κορυφή της βρίσκεται σε σημείο με τετμημέη µ και έχει άξοα συμμετρίας τη κατακόρυφη ευθεία που διέρχεται από το µ. Η τυπική απόκλιση σ της, καθορίζει το σχήμα της καμπάας: όσο μεγαλύτερη είαι η τιμή της, τόσο πιο «πλατιά» και «κοτή» είαι και όσο μειώεται η καμπάα γίεται πιο «στεή» και «ψιλή». Συεπώς η καοική καταομή καθορίζεται από δύο παραμέτρους, τη μέση τιμή µ και τη τυπική απόκλιση σ. Η πιθαότητα P( α < < β ) α «πετύχουμε» μία παρατήρηση στο διάστημα ( α, β ) είαι ίση με το σκιασμέο εμβαδό,. Αυτή η πιθαότητα α πολλαπλασιαστεί με 100 εκφράζει το % ποσοστό τω παρατηρήσεω της που βρίσκοται στο διάστημα ( α, β ). Θα δείτε σε αρκετά βιβλία στατιστικής ότι
στα διαστήματα ( µ σ, µ + σ ), ( µ 2 σ, µ + 2 σ ) και ( µ 3 σ, µ + 3 σ ) βρίσκεται το 68, 26%, το 95,44% και το 99,72% τω παρατηρήσεω ατιστοίχως. Μπορούμε α ορίσουμε μια έα τυχαία μεταβλητή Z η οποία ατιστοιχεί κάθε τιμή της στη «τυποποιημέη» της τιμή, ως εξής µ Z =. σ Όπως μπορούμε α διαπιστώσουμε, η Z ακολουθεί και αυτή τη καοική καταομή με μέση τιμή 0 και τυπική απόκλιση 1. Σε πολλά βιβλία ααφέρεται ως τυποποιημέη καοική καταομή, Η χρησιμότητα της είαι ότι μπορούμε σε πίακες α βρούμε, με ακρίβεια 2 δεκαδικώ ψηφίω του z, τα ποσοστά τω παρατηρήσεω που βρίσκοται στο διάστημα (0, z ). Παράδειγμα 7. Ας υποθέσουμε ότι η μέση τιμή της είαι µ= 10, η τυπική της απόκλιση είαι σ = 3 και ότι θέλουμε α υπολογίσουμε το ποσοστό τω παρατηρήσεω που έχου τιμή μεγαλύτερη του 15. Αρχικά υπολογίζουμε τη z τιμή του 15 η οποία είαι, z 15 16 10 = = 2 3 και από το πίακα τω z τιμώ βρίσκουμε ότι το ποσοστό τω παρατηρήσεω στο διάστημα (0, 2) είαι 47,72%. Συεπώς το ποσοστό τω παρατηρήσεω, που έχου τιμή μεγαλύτερη του 2 είαι (50 47, 72)% = 2, 28%. Στη πράξη καμία τυχαία μεταβλητή δε ακολουθεί ακριβώς τη θεωρητική μορφή της καοικής καταομής. Μπορούμε όμως, με τη βοήθεια κάποιω αλγορίθμω του SPSS, α ελέγξουμε πόσο κοτά βρίσκεται η καταομή μιας τυχαίας μεταβλητής στη καοική και α αποφασίσουμε α θα τη θεωρήσουμε καοική ή όχι. Δύο τέτοιοι αλγόριθμοι είαι τα τεστ Kolmogorov-Smrnov και Shapro-Wlk. Ότα το μέγεθος του δείγματος είαι < 20 χρησιμοποιούμε το τεστ Shapro-Wlk εώ σε μεγαλύτερα δείγματα το Kolmogorov-Smrnov. 4. Το κετρικό οριακό θεώρημα Έστω μια τυχαία μεταβλητή, η οποία «μετράει» κάποια παράμετρο εός πληθυσμού, ο οποίος έχει μέση τιμή µ και τυπική απόκλιση σ. Το κετρικό οριακό θεώρημα μας λέει ότι η καταομή τω μέσω τιμώ της, για έα αρκετά μεγάλο πλήθος δειγμάτω, προσεγγίζει τη καοική καταομή.
Έστω ότι λαμβάουμε δείγματα με επαάθεση, δηλαδή κάθε δείγμα που λαμβάουμε το επαατοποθετούμε πίσω στο πληθυσμό και στη συέχεια λαμβάουμε το επόμεο. Τότε σύμφωα με το κετρικό οριακό θεώρημα, η μέση τιμή τω μέσω τιμώ τω δειγμάτω µ, θα είαι ίση με τη μέση τιμή του πληθυσμού: µ = µ. Επίσης το κετρικό οριακό θεώρημα μας λέει ότι α το μέγεθος τω δειγμάτω είαι, τότε η τυπική απόκλιση σ στη καταομή τω μέσω τιμώ θα είαι, σ σ =. Σύμφωα με τα παραπάω, στο διάστημα ( µ σ, µ + σ ) θα βρίσκεται το 68, 26%, εώ στα διαστήματα ( µ 2 σ, µ + 2 σ ), ( µ 3 σ, µ + 3 σ ) θα βρίσκεται το 95,44% και 99,72% τω μέσω τιμώ ατιστοίχως. Η τυπική απόκλιση σ δείχει το σφάλμα κατά τη προσέγγιση της μέσης τιμής µ του πληθυσμού, από τη μέση τιμή εός δείγματος και συμβολίζεται με S. E. M. Επειδή συήθως δε γωρίζουμε τη τυπική απόκλιση σ του πληθυσμού, τη προσεγγίζουμε με τη τυπική απόκλιση S. D. S του δείγματος, οπότε θα ισχύει ότι: S. D. S S. E. M =. Παράδειγμα 8. Έστω ότι θέλουμε α εκτιμήσουμε που βρίσκεται η μέση τιμή µ του ύψους του πληθυσμού τω εηλίκω αδρώ, λαμβάοτας έα δείγμα μεγέθους 100, με μέση τιμή 175 (εκ) και τυπική απόκλιση 10 (εκ). Τότε σύμφωα με τα παραπάω θα έχουμε S. E. M S. D. S = 10 = 100 =1 και συεπώς θα έχουμε. με πιθαότητα 68, 26% η µ βρίσκεται στο διάστημα (174,176). με πιθαότητα 95,44% η µ βρίσκεται στο διάστημα (173,177). με πιθαότητα 99,72% η µ βρίσκεται στο διάστημα (172,178). Οι παραπάω πιθαότητες οομάζοται επίπεδα εμπιστοσύης στη εκτίμηση της μέσης τιμής. Στη περίπτωση η πιθαότητα α κάουμε λάθος εκτίμηση είαι 31,74% εώ στις
περιπτώσεις και είαι 4,56% και 0, 28% ατιστοίχως. Οι στατιστικολόγοι έχου ορίσει ως ελάχιστο αποδεκτό επίπεδο εμπιστοσύης, στη εκτίμηση της μέσης τιμής, το 95%. Συεπώς η μέγιστη αποδεκτή πιθαότητα λάθους θεωρείται το 5%. Το διάστημα εκείο στο οποίο έχουμε 5% πιθαότητα λάθους μπορούμε α το βρούμε με τη βοήθεια του πίακα τω z τιμώ και είαι το ( µ 1,96 S. E., µ + 1,96 S. E. ). Στο παράδειγμα μας είαι το (173,04, 176,96), γιατί S. E. M = 1. M M