Κεφάλαιο 2 ο 2. Missing Data mechanisms 2.1 Εισαγωγή Στην προηγούµενη ενότητα περιγράψαµε κάποια από τα βασικά µοτίβα εµφάνισης των χαµένων τιµών σε σύνολα δεδοµένων. Ένα άλλο ζήτηµα που µας απασχολεί εξίσου είναι οι µηχανισµοί (mechanisms) που οδηγούν στην δηµιουργία των χαµένων τιµών και πιο συγκεκριµένα το γεγονός αν οι µεταβλητές που λείπουν σχετίζονται µε τις τιµές των µεταβλητών που υπάρχουν στο σύνολο δεδοµένων που εξετάζουµε. Οι µηχανισµοί εµφάνισης χαµένων τιµών είναι πολύ κρίσιµοι από την στιγµή που οι ιδιότητες των µεθόδων χειρισµού χαµένων τιµών (MDT s, Missing Data Techniques) εξαρτώνται σε µεγάλο βαθµό από την φύση των µηχανισµών που υφίστανται στο κάθε σύνολο τιµών. Αυτός ο πολύ σηµαντικός ρόλος των µηχανισµών είχε αγνοηθεί σε µεγάλο βαθµό µέχρι που παρατηρήθηκε και καταγράφηκε στη θεωρία του Rubin (1976a). Γενικά ορίζουµε, όπως και στην περίπτωση των µοτίβων, το σύνολο των συµπληρωµένων δεδοµένων Y = ( y ij ) και τον πίνακα µε τους δείκτες των χαµένων τιµών M = ( M ij ).Ο µηχανισµός της εµφάνισης των χαµένων τιµών χαρακτηρίζεται από την υπό συνθήκη κατανοµή του M,δεδοµένου του Y. Για παράδειγµα αυτή η απόδοση µπορεί να δοθεί από την έκφραση f ( M Y, φ ) όπου το φ αντιστοιχεί στους άγνωστους παραµέτρους. Επιπλέον ορίζουµε και το Y mis ως τα τµήµατα που λείπουν και το Y obs ως τα τµήµατα που υπάρχουν. Στην περίπτωση που τα δεδοµένα δεν λείπουν τυχαία, αλλά εξαιτίας άλλων λόγων τότε θεωρούµε ότι η ανάλυση τους θα οδηγήσει σε εσφαλµένα αποτελέσµατα εκτός και αν η µέθοδος ανάλυσης είναι ικανή να 23
ανακαλύψει και να διορθώσει το σφάλµα αυτό που προκαλείται από αυτή την όχι τυχαία επιλογή των δεδοµένων. Οι πιο συχνά παρατηρούµενοι µηχανισµοί που οδηγούν στη δηµιουργία χαµένων τιµών είναι τέσσερεις: Missing completely at random (MCAR), Non-ingnorable missingness (NIM), Missing at random (MAR). Στις παρακάτω ενότητες αναφερόµαστε στην κάθε µία ξεχωριστά πιο αναλυτικότερα. 2.2 Missing completely at random (MCAR) Στον µηχανισµό MCAR, οι χαµένες τιµές που έχει κάποια µεταβλητή δεν έχουν σχέση µε τις τιµές που έχουν άλλες µεταβλητές, είτε αυτές λείπουν είτε είναι έγκυρες. Εποµένως σύµφωνα µε τα σύνολα που ορίσαµε παραπάνω και αφού η απουσία των τιµών δεν εξαρτάται από τις τιµές των δεδοµένων στο σύνολο Y, είτε αυτές απουσιάζουν είτε είναι παρατηρούµενες, έχουµε τον παρακάτω τύπο: f ( M Y, φ) = f ( M φ) για όλα τα Y,φ (2.1) Πρέπει να σηµειωθεί ότι αυτή η εξίσωση που ορίσαµε δεν σηµαίνει ότι το µοτίβο είναι από µόνο του τυχαίο, αλλά ότι οι µεταβλητές που λείπουν δεν σχετίζονται µε τις τιµές των άλλων µεταβλητών. Ο µηχανισµός MCAR είναι µία ακραία περίπτωση. Γενικά µπορούµε να διαπιστώσουµε, τουλάχιστον τυπικά, αν υφίστανται οι συνθήκες που ισχύουν για τον MCAR µηχανισµό, συγκρίνοντας την κατανοµή των παρατηρούµενων δεδοµένων µεταξύ των παρατηρούµενων περιπτώσεων και των περιπτώσεων που περιέχουν χαµένες τιµές. Για παράδειγµα, αν σε µία έρευνα που αφορά το οικογενειακό εισόδηµα, οικογένειες µε χαµηλό οικονοµικό εισόδηµα αρνούνται να το αποκαλύψουν στην έρευνα, ενώ οικογένειες µε µεγάλο εισόδηµα δεν έχουν τέτοιο πρόβληµα και αποκαλύπτουν το εισόδηµά τους, τότε τα δεδοµένα µας 24
δεν είναι MCAR, γιατί αυτή η άρνηση σχετίζεται µε κοινωνικού και ταξικούς λόγους που αφορούν τα εισοδήµατα. Όµως αξίζει να παρατηρήσουµε ότι κατά την διάρκεια µιας έρευνας «είναι η τιµή της παρατήρησης που είναι σηµαντική και όχι η απουσία της.» Έτσι, αν κάποιος αρνείται να αποκαλύψει το προσωπικό, αλλά και το οικογενειακό του εισόδηµα, τότε µπορούµε να θεωρήσουµε ότι τα δεδοµένα µας είναι MCAR από την στιγµή που η µεταβλητή εισόδηµα δεν έχει καµία σχέση µε αυτή την άρνηση. 2.3 Non- ignorable missingness (NIM) Η περίπτωση του µηχανισµού ΝΙΜ θεωρείται η αντίθετη του µηχανισµού MCAR. Αυτό συµβαίνει γιατί η πιθανότητά του να έχουµε χαµένες τιµές σε κάποια µεταβλητή εξαρτάται από την µεταβλητή την ίδια. Για παράδειγµα µία ερώτηση σε κάποιο ερωτηµατολόγιο, που αφορά κάποια συγκεκριµένη δεξιότητα, είναι δυνατόν να µην απαντηθεί, γιατί αυτή η ιδιότητα να είναι πραγµατικά πολύ χαµηλή. Γενικά λοιπόν θα µπορούσαµε να δώσουµε τον παρακάτω τύπο σε αυτό τον µηχανισµό: f ( M Y, φ) f ( M φ), για όλα τα Y,φ και η f ( M Y, φ ) εξαρτάται από την Y mis (2.2) Ο χειρισµός αυτού του µηχανισµού είναι ίσως και ο δυσκολότερος τη στιγµή που όλες οι µέθοδοι εισαγωγής τιµών µπορεί να είναι µεροληπτικές εκτός και αν εφαρµοστούν ανάλογα για τον µηχανισµό χαµένων τιµών, ακόµα όµως εξαρτάται από τα µη παρατηρούµενα δεδοµένα. Εποµένως, είναι δύσκολο να µοντελοποιήσουµε ή ακόµα και να έχουµε πρόσβαση σε τέτοια µοντέλα. Μια προσεχτική και λεπτοµερής ανάλυση είναι το κλειδί για την εξέταση τέτοιων περιπτώσεων. Παίρνοντας υπόψη µας το προηγούµενο παράδειγµα, που αφορά το οικογενειακό εισόδηµα στην περίπτωση άρνησης αποκάλυψης λόγω χαµηλού οικονοµικού εισοδήµατος, τα δεδοµένα µας είναι NIM. 25
2.4 Missing at random (MAR) Μία µέση περίπτωση ανάµεσα στις δύο ακραίες που παρουσιάσαµε προηγουµένως είναι η περίπτωση του µηχανισµού MAR. Με έναν λιγότερο αυστηρό τύπο από αυτόν του MCAR θεωρούµε ότι η απουσία των χαµένων τιµών εξαρτάται αποκλειστικά από τις µεταβλητές που είναι παρατηρούµενες, δηλαδή τις Y obs και όχι από τα τµήµατα των µεταβλητών που λείπουν. Μαθηµατικά µπορούµε να διατυπώσουµε το παραπάνω ως εξής: f ( M Y, φ) = f ( Y obs φ), για όλα τα Y mis,φ (2.3) Οι περισσότερες µέθοδοι ανάλυσης προβληµάτων µε χαµένες τιµές έχουν σχεδιαστεί µε βάση αυτό τον συλλογισµό. Ο µηχανισµός MCAR είναι ένα υποσύνολο του µηχανισµού MAR. Αν σκεφτούµε ξανά το παράδειγµα που αναφέρθηκε παραπάνω, σχετικά µε το οικογενειακό εισόδηµα µία περίπτωση, όπου θα µπορούσαµε να θεωρήσουµε ότι τα δεδοµένα µας είναι MAR, όταν κάποιος που ρωτήθηκε για την έρευνα και πάσχει από κατάθλιψη, αρνηθεί να απαντήσει στο ερώτηµα που αφορά το εισόδηµα του. Στην περίπτωση αυτή τα δεδοµένα που παίρνουµε είναι MAR, εφόσον βέβαια η άρνηση αυτή δε σχετίζεται µε το επίπεδο του µισθού (χαµηλό ή υψηλό), αλλά από την ανεξάρτητη µεταβλητή της κατάθλιψης. Για να καταλάβουµε καλύτερα πως λειτουργούν οι παραπάνω µηχανισµοί, ας θεωρήσουµε ότι προσπαθούµε να µοντελοποιήσουµε τη συνάρτηση βάρους (W ) σε σχέση µε το φύλο ( S ). Στα αποτελέσµατα που θα πάρουµε κατά την έρευνά µας το πιο πιθανό είναι κάποιοι να µην επιθυµούσαν να αποκαλύψουν το βάρος τους και εποµένως να έχουµε κάποιες χαµένες τιµές για την µεταβλητή W. Παίρνοντας υπόψη µας τους τρεις παραπάνω µηχανισµούς µπορούµε να βγάλουµε τα παρακάτω συµπεράσµατα που αφορούν την άρνηση αποκάλυψης του βάρους σε σχέση µε το φύλο των ερωτηθέντων. 26
Έτσι: 1) Μία περίπτωση είναι όταν δεν υπάρχει κάποιος ειδικός λόγος κάποιοι ερωτηθέντες να µην αποκαλύψουν το βάρος τους και κάποιοι άλλοι να το αποκαλύψουν. Σε αυτή την περίπτωση οι χαµένες τιµές στη µεταβλητή W δεν έχουν σχέση, ούτε µε την µεταβλητή W, αλλά ούτε και µε την µεταβλητή S. Τότε µπορούµε να πούµε ότι τα δεδοµένα µας είναι MCAR. 2) Μία άλλη περίπτωση είναι κάποιοι ερωτηθέντες του ένα ή του άλλου φύλου να µην είναι τόσο πρόθυµοι να αποκαλύψουν το βάρος τους (πιθανότατα το γυναικείο φύλο!) και έτσι να µας δηµιουργηθούν ξανά χαµένες τιµές στα δεδοµένα µας. Σε αυτή την περίπτωση όµως, οι χαµένες µεταβλητές στην µεταβλητή W εξαρτώνται αποκλειστικά από τις τιµές της µεταβλητής S. Έτσι σε αυτήν την περίπτωση µπορούµε να πούµε ότι τα δεδοµένα µας είναι MAR. 3) Η τελευταία περίπτωση είναι, όταν πιο παχουλοί ερωτηθέντες είναι λιγότερο πρόθυµοι από λεπτότερους να αποκαλύψουν το βάρος τους. Σε αυτήν την περίπτωση οι χαµένες τιµές της W εξαρτώνται από τις µη παρατηρήσιµες τιµές της ίδιας της µεταβλητής. Σε τέτοιες περιπτώσεις µπορούµε να πούµε ότι τα δεδοµένα µας είναι NIM. Είναι λοιπόν απαραίτητο, µε σκοπό να διευκρινίσουµε το µηχανισµό που βρίσκεται πίσω από τις χαµένες τιµές να εφαρµόσουµε µία µέθοδο στατιστικής ανάλυσης στα δεδοµένα που ήδη έχουµε στη διάθεσή µας. Μια λογική προσέγγιση και µία κοινή πρακτική µε σκοπό να ελέγξουµε διάφορες µεθόδους για δεδοµένα που δεν είναι συµπληρωµένα όλα τα πεδία των τιµών τους, είναι να αναπαράγουµε τεχνητές χαµένες τιµές από ήδη συµπληρωµένες βάσεις δεδοµένων. Με αυτόν τον τρόπο, µπορούµε να ελέγξουµε την αντοχή και την δύναµη των προτεινοµένων µεθόδων κάτω από διαφορετικές περιπτώσεις απωλειών. Αυτό είναι κρίσιµο όταν θέλουµε να επιλέξουµε ποια µέθοδο θα χρησιµοποιήσουµε για τον χειρισµό των χαµένων τιµών, χωρίς να έχουµε γνώση του µηχανισµού. 27
Στο επόµενο κεφάλαιο αναλύουµε κάποιες από τις πιο συχνά χρησιµοποιούµενες µεθόδους για τον χειρισµό των χαµένων τιµών. 28