Πινάκες συνάφειας εξερεύνηση σχέσεων μεταξύ τυχαίων μεταβλητών. Είναι λογικό λοιπόν, στην ανάλυση των κατηγορικών δεδομένων να μας ενδιαφέρει η σχέση μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών. Έστω Χ και Υ είναι δύο κατηγορικές μεταβλητές με την Χ να έχει I επίπεδα και την Υ να έχει J επίπεδα. Αν κατηγοριοποιούμε ένα υποκείμενο με βάση αυτές τις δύο μεταβλητές τότε η διμεταβλητή που δημιουργείται έχει μία κατανομή. Την κατανομή αυτήν την αναπαριστούμε με ένα πίνακα συνάφειας Βαρύτητα συμπτωμάτων Φύλο Χαμηλή Υψηλή Άνδρες Γυναίκες 49 9 5 00
Πινάκες συνάφειας Ένας πίνακας συνάφειας ο οποίος περιγράφει τη σχέση μεταξύ δύο κατηγορικών μεταβλητών καλείται πίνακας δύο εισόδων (two-wa table). Ένας πίνακας συνάφειας ο οποίος περιγράφει τη σχέση μεταξύ τριών κατηγορικών μεταβλητών καλείται πίνακας τριών εισόδων (three-wa table) κ.τ.λ. Ένας πίνακας δύο εισόδων ο οποίος έχει Ι γραμμές και J στήλες καλείται IxJ πίνακας. Ο Πίνακας είναι ένας x πίνακας.
Πινάκες συνάφειας Η από κοινού συνάρτηση πιθανότητας του συνδυασμού των ενδεχομένων και γράφεται: όπου το P( X, ),,...,I,,...,J Οι περιθώριες πιθανότητες των X και Υ ορίζονται από τα περιθώρια αθροίσματα: J... I I J.
P( X, ),,...,I,,...,J Πινάκες συνάφειας Από κοινού και περιθώριες πιθανότητες Υ J. π π π. Χ π π π. π. π. π... I Όμως δοθέντος ότι η Χ έχει την τιμή ί, η Υ έχει J δεσμευμένη πιθανότητα.
Ανεξαρτησία Μία απλή σχέση (μη εξάρτησης) ανάμεσα στις Χ και Υ είναι αυτή της ανεξαρτησίας για την οποία ισχύει:..... Δηλαδή εάν υπάρχει ανεξαρτησία μεταξύ των μεταβλητών Χ και Υ τότε οι δεσμευμένες πιθανότητες Ρ (Υ = \Χ = ) είναι ίδιες για όλες τις τιμές της μεταβλητής Χ και βέβαια ίση με την Ρ (Υ = )..,...,I
Ανεξαρτησία.. = 9 υποκείμενα καταχωρήθηκαν σε έναν πίνακα συνάφειας x όσον αφορά το φύλο τους και τη βαρύτητα συμπτωμάτων της νόσου Alzhemer.. = 00 ήταν άνδρες και. = 9 γυναίκες. = 5 άνδρες έδειξαν υψηλή βαρύτητα συμπτωμάτων. Η δειγματική εκτίμηση της από κοινού πιθανότητας ένα υποκείμενο να είναι άνδρας και να έχει υψηλή βαρύτητα συμπτωμάτων είναι = 5/9 = 0.75. Βαρύτητα συμπτωμάτων Φύλο Χαμηλή Υψηλή Σύνολο Άνδρες = 49 = 5. = 00 Γυναίκες = 9 = 00. = 9.. Σύνολο. = 4. = 5.. = 9..
Ανεξαρτησία To ποσοστό της υψηλής βαρύτητας συμπτωμάτων δοθέντος ότι ένα υποκείμενο είναι άνδρας είναι 5/00 = 0.5. Το ποσοστό της χαμηλής βαρύτητας συμπτωμάτων δοθέντος ότι ένα υποκείμενο είναι άνδρας είναι 49/00 = 0.49. Τα ποσοστά (0.5,0.49) αποτελούν τη δεσμευμένη κατανομή της βαρύτητας συμπτωμάτων δοθέντος ότι ένα υποκείμενο είναι άνδρας. Βαρύτητα συμπτωμάτων Φύλο Χαμηλή Υψηλή Σύνολο Άνδρες = 49 = 5. = 00. Γυναίκες = 9 = 00. = 9 Σύνολο. = 4. = 5.. = 9.
Θεώρημα Έστω τα Χ, =,,.. έχουν πολυωνυμική κατανομή με αναμενόμενες συχνότητες, =,,... Έστω ότι Υ, =,,.. είναι ανεξάρτητες μεταβλητές που η κάθε μια ακολουθεί κατανομή Posso με παραμετρους λ =, =,,... Δείξτε ότι η υπό-συνθήκη κατανομή των είναι η πολυωνυμική κατανομή των Χ Απόδειξη Η από κοινού συνάρτηση πιθανότητας για τα είναι το γινόμενο των πιθανοτήτων λ =,,..., e
Θεώρημα Η από κοινού συνάρτηση πιθανότητας είναι το γινόμενο των πιθανοτήτων e......,...,,......,...,, e e e ()
Θεώρημα Ισχύει ότι: Η υπό-συνθήκη κατανομή ισούται με: Από την () βλέπουμε ότι ο αριθμητής της υπό-συνθήκη πιθανότητας της () γράφεται:...,...,,,...,, () e...... @,...,,
Θεώρημα Γνωρίζουμε ότι ακολουθεί κατανομή Posso με παράμετρο + + + κ = Άρα ο παρονομαστής της () ισούται με: Επομένως e......,...,,
Πολυωνυμική Κατανομή Ωστόσο, μπορούμε να φτάσουμε στην πολυωνυμική κατανομή ξεκινώντας από την κατανομή Posso. Αν έχουμε ανεξάρτητες κατανομές Posso X,, X με παραμέτρους m,, m αντίστοιχα τότε το άθροισμα τους είναι κατανομή Posso με παράμετρο m + + m. Αν δεσμεύσουμε πάνω στην τιμή του αθροίσματος X +... + Χ = τότε οι παρατηρήσεις X, =,..., δεν ακολουθούν κατανομή Posso αλλά: PX,,..., X P X,,..., P X m m e e m m m m
Βοηθήματα Γνωρίζουμε ότι Γνωρίζουμε Άρα,...,,,...,,...,...,, λ + λ + + λ κ =...,...,,...,...,,
Άσκηση Έχουμε 00 ερωτήσεις οι οποίες έχουν 4 πιθανές απαντήσεις όπου η μία είναι σωστή. Για κάθε μια ερώτηση, ο ερωτώμενος διαλέγει τυχαία μια απάντηση.. Προσδιορίστε την κατανομή των σωστών απαντήσεων. Να βρεθεί ο μέσος και η τυπική απόκλιση της κατανομής 3. Προσδιορίστε την κατανομή των (,, 3, 4 ) 4. Να βρεθούν: E( ), Var( ), Cov( ), Cor( ).
Απάντηση Εφόσον ο ερωτώμενος επιλέγει τυχαία μια απάντηση τότε η πιθανότητα να επιλέξει την σωστή είναι =0.5. Αρα αν Χ ο αριθμός των σωστών απαντήσεων σε σύνολο =00 ερωτήσεων τότε E X ~ B Εφόσον μεγάλο τότε προσεγγιστικά θα ισχύει 00,0.5 X 00*0.5 5 X VarX 000.5 0.5 8.75 4. 33 X, 5,4.33 ~ N N Κεντρικό Οριακό Θεώρημα
Επομένως X 5 4.33 Απάντηση 50 5 4.33 X 50 z 5.77 0. 0000003 Για κάθε μια από τις πιθανές απαντήσεις επιλέγεται μια πιθανότητα = = 3 = 4 =0.5. Αρα θα ισχύει: E Var Cov, ~ 00,0.5,0.5,0.5,0.5 Corr, 3 4 Mult 00*0.5 00*0.5 0.5 8.75, 00*0.5*0.5 6.5 Cov, 6.5, Var Var 8.75*8.75 3 5
Σύγκριση ποσοστών σε πινάκες Μεγάλα δείγματα συνάφειας Δείγμα: αποτελείται από δυο στατιστικά χαρακτηριστικά Το μέγεθος Τον συνολικό αριθμό των χαρακτηριστικών του δείγματος που ικανοποιεί τις ιδιότητες των περιορισμών x Σημειακή εκτίμηση Το ποσοστό του πληθυσμού π εκτιμάται από το δειγματικό ποσοστό x Όταν το δείγμα είναι μεγάλο η κατανομή του είναι προσεγγιστικά η κανονική κατανομή με ~ N,
Σύγκριση ποσοστών σε πινάκες συνάφειας 95% διάστημα εμπιστοσύνης ποσοστού z a / Έλεγχος υποθέσεων Η 0 : π=π 0 Η : π>π 0 Η : π<π 0 Η : π π 0 0 z* ~ N 0 0 0,
Σύγκριση ποσοστών σε πινάκες συνάφειας Απόρριψη Η : π>π 0 αν z * >z α α= 0.05 (5%) αποδέχομαι απορρίπτω Απόρριψη Η : π<π 0 αν z * <-z α απορρίπτω z α αποδέχομαι Απόρριψη Η : π π 0 αν z * z α/ -z α αποδέχομαι απορρίπτω απορρίπτω -z α/ Z α/
Άσκηση 30% των οδηγών αυτοκινήτων απέτυχε να μαντέψει αν τα αγωνιστικά αυτοκίνητα αγοράζονται από διαφορετικά άτομα σε σχέση με τα οικογενειακά. Σε δείγμα 50 ατόμων, 60 απέτυχαν την δοκιμασία. Υπάρχει υπόνοια ότι το ποσοστό των αποτυχιών είναι σημαντικό (α=5%)
Απάντηση Δεδομένα άσκησης =50, x=60 Άρα: Εκτίμηση του ποσοστού των x 60 0.4 ατόμων που απάντησαν λάθος 00 Έλεγχος υποθέσεων Η 0 : π=0.3 0 0.4 0.3 z*.7 0 0 0.3* 0.7 Η : π>0.3 50 αποδέχομαι απορρίπτω.7>.65 άρα απορρίπτω την Η 0.65.7
Άσκηση Το 996 μέσα στα πλαίσια μεγάλης κοινωνικής μελέτης στην Αμερική τέθηκε το ερώτημα: αν οι γυναίκες που είναι έγκυος είναι σωστό να κάνουν έκτρωση στην περίπτωση που είναι παντρεμένες και δεν θέλουν άλλα παιδιά. 84 απάντησαν ναι και 98 απάντησαν όχι. Αν π είναι η πιθανότητα των ατόμων που απάντησαν θετικά να ελεγχθεί η υπόθεση Η 0 : π=0.5, και να υπολογισθεί το 95% διάστημα εμπιστοσύνης της εκτίμησης του ποσοστού.
Δεδομένα άσκησης Απάντηση N=84, x=84 Άρα: z * 3.6 0. 0006 x 84 0.46 84 Έλεγχος υποθέσεων 0 0.46 0.5 z* 3.6 Η 0 : π=0.5 0 0 0.5* 0.5 Η : π<0.5 84 z 95% διάστημα εμπιστοσύνης a / 0.46 0.46 0.46 0.46 0.46.96,0.46.96 0.439,0.485 84 84
Σύγκριση ποσοστών σε πινάκες συνάφειας Χ Στον Πίνακα δίνεται δείγμα 49 γυναικών ταξινομημένο ως προς το αν πάσχουν από κατάθλιψη και αν είχαν κάποια τραυματική εμπειρία στη ζωή τους. Είναι το ποσοστό των γυναικών με κατάθλιψη το ίδιο για τις γυναίκες με τραυματική εμπειρία και χωρίς? Κατάθλιψη, Υ Τραυματική εμπειρία, Χ Όχι Ναι Σύνολο Ναι 3 33 64 Όχι 5 4 55 Σύνολο 38 37 49 Σύγκριση Υ σταθερά με Χ= και Χ=
Σύγκριση ποσοστών σε πινάκες συνάφειας Χ Η σύγκριση μπορεί να γίνει χρησιμοποιώντας τις δεσμευμένες πιθανότητες Υ δοθέντος Χ = και X =. x x.. Η διαφορά παίρνει τιμές μεταξύ - και +. Όταν η διαφορά είναι 0 τότε η απάντηση στην μεταβλητή Υ δεν εξαρτάται από την τιμή Χ = ή Χ = οπότε λέμε ότι η Υ είναι ανεξάρτητη της Χ. Οι πιθανότητες και συμβολίζονται και ως και αντίστοιχα..
Σύγκριση ποσοστών σε πινάκες συνάφειας Χ Η εκτίμηση της διαφοράς μεταξύ των δύο ποσοστών είναι: 33 4 x x 0. 0 0. 056 0. 85 64 55 Κατάθλιψη, Υ Τραυματική εμπειρία, Χ Όχι Ναι Σύνολο Ναι 3 33 64 Όχι 5 4 55 Σύνολο 38 37 49
Σύγκριση ποσοστών σε πινάκες συνάφειας Χ έλεγχο υποθέσεων Η 0 : π =π ~ N, Η : π π Γνωρίζουμε ότι τα ποσοστά και (εκτιμήσεις) ακολουθούν ασυμπτωτικά κανονική κατανομή. ~ Κλασικός τρόπος εκτίμησης ποσοστών (όχι κατηγορικά δεδομένα) N, ΓΙΑΤΙ; τρόπος εκτίμησης ποσοστών Τα (κατηγορικά δεδομένα) είναι σημειακή εκτίμηση μέσα από το δείγμα αντιπροσωπεύοντας κατά 95% την πιθανότητα εκτίμησης του αντίστοιχου ποσοστού του πληθυσμού..
Σύγκριση ποσοστών σε πινάκες συνάφειας Χ κάτω από τη μηδενική υπόθεση ισχύει ότι: ~ N,.. Κάτω από την Η 0 η στατιστική συνάρτηση ελέγχου είναι z 0 c c.. 95% διάστημα εμπιστοσύνης για την διαφορά με c Η 0 : π =π.... Κοινή συνάρτηση των π =π. 96 c c..