2. Missing Data mechanisms

Σχετικά έγγραφα
ΚΕΦΑΛΑΙΟ 1 Ο. 1.1 Εισαγωγή Γενικά για χαµένες τιµές (missing values) στα δεδοµένα

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Θέµατα Μαθηµατικών & Στ. Στατ/κής Γενικής Παιδείας Γ Λυκείου 2000

a 1d L(A) = {m 1 a m d a d : m i Z} a 11 a A = M B, B = N A, k=1

Θέµατα Μαθηµατικών & Στ. Στατ/κής Γενικής Παιδείας Γ Λυκείου 2000 ÈÅÌÅËÉÏ

Αριθµητική Παραγώγιση και Ολοκλήρωση

Kεφάλαιο 10. Πόσα υποπαίγνια υπάρχουν εδώ πέρα; 2 υποπαίγνια.

2. Στοιχεία Πολυδιάστατων Κατανοµών

Το θεώρηµα πεπλεγµένων συναρτήσεων

ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ Γ' ΛΥΚΕΙΟΥ ΓΕΝΙΚΗΣ ΠΑΙ ΕΙΑΣ 2006 ΕΚΦΩΝΗΣΕΙΣ

Σηµειώσεις στις σειρές

Κεφάλαιο 13. Εισαγωγή στην. Η Ανάλυση ιακύµανσης

Συστήµατα Μη-Γραµµικών Εξισώσεων Μέθοδος Newton-Raphson

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

Εναλλακτικά του πειράματος

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

ειγµατοληπτική κατανοµή

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Γραµµική Αλγεβρα Ι. Ενότητα: Εισαγωγικές Εννοιες. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

Διάλεξη 2. Εργαλεία θετικής ανάλυσης Ή Γιατί είναι τόσο δύσκολο να πούμε τι συμβαίνει; Ράπανος-Καπλάνογλου 2016/7

Προσδιορισµός της φασµατικής ισχύος ενός σήµατος

ΜΑΘΗΜΑΤΙΚΗ ΙΑΤΥΠΩΣΗ ΚΑΙ ΛΥΣΗ ΦΥΣΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ

Ορισµοί και εξισώσεις κίνησης

Παλαιότερες ασκήσεις

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

Σχολικός Σύµβουλος ΠΕ03

2.6 ΟΡΙΑ ΑΝΟΧΗΣ. πληθυσµού µε πιθανότητα τουλάχιστον ίση µε 100(1 α)%. Το. X ονοµάζεται κάτω όριο ανοχής ενώ το πάνω όριο ανοχής.

Κεφάλαιο 9 ο Κ 5, 4 4, 5 0, 0 0,0 5, 4 4, 5. Όπως βλέπουµε το παίγνιο δεν έχει καµιά ισορροπία κατά Nash σε αµιγείς στρατηγικές διότι: (ΙΙ) Α Κ

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Κεφάλαιο 7. Έλεγχος Υποθέσεων. Ένα παράδειγµα

Συµπληρωµατικές σηµειώσεις για τον «Επιστηµονικό Υπολογισµό» Χειµερινό εξάµηνο Τµήµα Μαθηµατικών, Πανεπιστήµιο Αιγαίου

Κ. Χριστοδουλίδης: Μαθηµατικό Συµπλήρωµα για τα Εισαγωγικά Μαθήµατα Φυσικής Παράγωγος. x ορίζεται ως

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

Οικονοµετρικό Υπόδειγµα. Γράφηµα Ροής 1.

Δυναμική ενέργεια στο βαρυτικό πεδίο. Θετική ή αρνητική;

Συνήθεις ιαφορικές Εξισώσεις, Απαντήσεις-Παρατηρήσεις στην Εξέταση Περιόδου Σεπτεµβρίου.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

4.3. Γραµµικοί ταξινοµητές

Αλγεβρικες οµες Ι Ασκησεις - Φυλλαδιο 2

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

(365)(364)(363)...(365 n + 1) (365) k

Όταν χαλά η γλώσσα, χαλάει η σκέψη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΚΕΦΑΛΑΙΟ 2 Ο ΣΤΑΤΙΚΑ ΣΧΗΜΑΤΑ ΑΛΛΗΛΕΞΑΡΤΗΣΕΩΝ. C:\Documents and Settings\ioanna\Desktop\ioan_1\Skef_2.doc

2. Δυναμικό και χωρητικότητα αγωγού.

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

Μηχανική ΙI Ταλαντωτής µε µεταβλητή συχνότητα

1 Υποθέσεις και Θεωρήµατα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

«Έννοια της διάταξης ΟΡΙΣΜΟΣ α > β α β > 0.»

/ / 38

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

Αριθµητική Ανάλυση. ιδάσκοντες: Τµήµα Α ( Αρτιοι) : Καθηγητής Ν. Μισυρλής, Τµήµα Β (Περιττοί) : Επίκ. Καθηγητής Φ.Τζαφέρης. 21 εκεµβρίου 2015 ΕΚΠΑ

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

Μάθηµα 5. Κεφάλαιο: ιαφορικός Λογισµός. Θεµατικές ενότητες: 1. Συνέχεια συνάρτησης

Οδηγίες χρήσης του λογισµικού "Πολλαπλασιασµός"

(1) 98! 25! = 4 100! 23! = 4

4.4 Ερωτήσεις διάταξης. Στις ερωτήσεις διάταξης δίνονται:

Κλασικη ιαφορικη Γεωµετρια

Εκτίµηση της ζήτησης. Ανάλυση. Μέθοδοι έρευνας µάρκετινγκ ΚΕΦΑΛΑΙΟ 4

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

3. ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΟΥ ΑΝΤΙΣΤΡΟΦΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ ΤΗ ΜΕΘΟΔΟ ΜΗΚΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2012 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

Πρακτική µε στοιχεία στατιστικής ανάλυσης

ONE WAY ANOVA. .Π.Μ.Σ. Μαθηµατικά των Υπολογιστών & των αποφάσεων. Πάτρα, 11 Ιανουαρίου 2011

Ορισµός. Παρατηρήσεις. Σχόλιο

ΑΡΙΣΤΕΣ ΤΙΜΕΣ ΚΑΙ ΑΚΡΟΤΑΤΕΣ ΤΙΜΕΣ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος;

Ο είκτης Συσχέτισης. Υπάρχουν πολλές οι έρευνες στις οποίες µας ενδιαφέρει να µελετήσουµε αν υπάρχει ΑΛΛΗΛΕΞΑΡΤΗΣΗ µεταξύ δύο µεταβλητών


ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΙΙ ιαφορικός Λογισµός πολλών µεταβλητών. ιαφόριση συναρτήσεων πολλών µεταβλητών

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

εξαρτάται από το θ και για αυτό γράφουµε την σ.π.π. στην εξής µορφή: ( θ, + ) θ θ n 2n (θ,+ ) 1, 0, x θ.

4. ΠΕΠΕΡΑΣΜΕΝΑ ΣΤΟΙΧΕΙΑ ΣΕ ΜΟΝΟ ΙΑΣΤΑΤΑ ΠΡΟΒΛΗΜΑΤΑ. φ για την εφαρµογή της µεθόδου Galerkin δεν

(µονάδες 25) ΟΜΑ Α Β Να περιγράψετε, χρησιµοποιώντας και το κατάλληλο σχεδιάγραµµα, το οικονοµικό κύκλωµα.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ - ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΙΣΑΓΩΓΙΚΕΣ ΜΕΤΑΠΤΥΧΙΑΚΕΣ ΕΞΕΤΑΣΕΙΣ 26 ΙΟΥΛΙΟΥ 2009 ΕΥΤΕΡΟ ΜΕΡΟΣ :

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τίτλος Μαθήματος: Συνήθεις Διαφορικές Εξισώσεις Ι

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

(1) 98! 25! = 4 100! 23! = 4

Αλγεβρικες οµες Ι Ασκησεις - Φυλλαδιο 2

Μεθοδολογίες παρεµβολής σε DTM.

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Μεταβιβάσιµες Άδειες Ρύπανσης (Tradeable Emission Permits) Ας θεωρήσουµε και πάλι ότι υπάρχουν επιχειρήσεις n, ( i 1,2,..., n)

Κεφάλαιο 5 Οι χώροι. Περιεχόµενα 5.1 Ο Χώρος. 5.3 Ο Χώρος C Βάσεις Το Σύνηθες Εσωτερικό Γινόµενο Ασκήσεις

Transcript:

Κεφάλαιο 2 ο 2. Missing Data mechanisms 2.1 Εισαγωγή Στην προηγούµενη ενότητα περιγράψαµε κάποια από τα βασικά µοτίβα εµφάνισης των χαµένων τιµών σε σύνολα δεδοµένων. Ένα άλλο ζήτηµα που µας απασχολεί εξίσου είναι οι µηχανισµοί (mechanisms) που οδηγούν στην δηµιουργία των χαµένων τιµών και πιο συγκεκριµένα το γεγονός αν οι µεταβλητές που λείπουν σχετίζονται µε τις τιµές των µεταβλητών που υπάρχουν στο σύνολο δεδοµένων που εξετάζουµε. Οι µηχανισµοί εµφάνισης χαµένων τιµών είναι πολύ κρίσιµοι από την στιγµή που οι ιδιότητες των µεθόδων χειρισµού χαµένων τιµών (MDT s, Missing Data Techniques) εξαρτώνται σε µεγάλο βαθµό από την φύση των µηχανισµών που υφίστανται στο κάθε σύνολο τιµών. Αυτός ο πολύ σηµαντικός ρόλος των µηχανισµών είχε αγνοηθεί σε µεγάλο βαθµό µέχρι που παρατηρήθηκε και καταγράφηκε στη θεωρία του Rubin (1976a). Γενικά ορίζουµε, όπως και στην περίπτωση των µοτίβων, το σύνολο των συµπληρωµένων δεδοµένων Y = ( y ij ) και τον πίνακα µε τους δείκτες των χαµένων τιµών M = ( M ij ).Ο µηχανισµός της εµφάνισης των χαµένων τιµών χαρακτηρίζεται από την υπό συνθήκη κατανοµή του M,δεδοµένου του Y. Για παράδειγµα αυτή η απόδοση µπορεί να δοθεί από την έκφραση f ( M Y, φ ) όπου το φ αντιστοιχεί στους άγνωστους παραµέτρους. Επιπλέον ορίζουµε και το Y mis ως τα τµήµατα που λείπουν και το Y obs ως τα τµήµατα που υπάρχουν. Στην περίπτωση που τα δεδοµένα δεν λείπουν τυχαία, αλλά εξαιτίας άλλων λόγων τότε θεωρούµε ότι η ανάλυση τους θα οδηγήσει σε εσφαλµένα αποτελέσµατα εκτός και αν η µέθοδος ανάλυσης είναι ικανή να 23

ανακαλύψει και να διορθώσει το σφάλµα αυτό που προκαλείται από αυτή την όχι τυχαία επιλογή των δεδοµένων. Οι πιο συχνά παρατηρούµενοι µηχανισµοί που οδηγούν στη δηµιουργία χαµένων τιµών είναι τέσσερεις: Missing completely at random (MCAR), Non-ingnorable missingness (NIM), Missing at random (MAR). Στις παρακάτω ενότητες αναφερόµαστε στην κάθε µία ξεχωριστά πιο αναλυτικότερα. 2.2 Missing completely at random (MCAR) Στον µηχανισµό MCAR, οι χαµένες τιµές που έχει κάποια µεταβλητή δεν έχουν σχέση µε τις τιµές που έχουν άλλες µεταβλητές, είτε αυτές λείπουν είτε είναι έγκυρες. Εποµένως σύµφωνα µε τα σύνολα που ορίσαµε παραπάνω και αφού η απουσία των τιµών δεν εξαρτάται από τις τιµές των δεδοµένων στο σύνολο Y, είτε αυτές απουσιάζουν είτε είναι παρατηρούµενες, έχουµε τον παρακάτω τύπο: f ( M Y, φ) = f ( M φ) για όλα τα Y,φ (2.1) Πρέπει να σηµειωθεί ότι αυτή η εξίσωση που ορίσαµε δεν σηµαίνει ότι το µοτίβο είναι από µόνο του τυχαίο, αλλά ότι οι µεταβλητές που λείπουν δεν σχετίζονται µε τις τιµές των άλλων µεταβλητών. Ο µηχανισµός MCAR είναι µία ακραία περίπτωση. Γενικά µπορούµε να διαπιστώσουµε, τουλάχιστον τυπικά, αν υφίστανται οι συνθήκες που ισχύουν για τον MCAR µηχανισµό, συγκρίνοντας την κατανοµή των παρατηρούµενων δεδοµένων µεταξύ των παρατηρούµενων περιπτώσεων και των περιπτώσεων που περιέχουν χαµένες τιµές. Για παράδειγµα, αν σε µία έρευνα που αφορά το οικογενειακό εισόδηµα, οικογένειες µε χαµηλό οικονοµικό εισόδηµα αρνούνται να το αποκαλύψουν στην έρευνα, ενώ οικογένειες µε µεγάλο εισόδηµα δεν έχουν τέτοιο πρόβληµα και αποκαλύπτουν το εισόδηµά τους, τότε τα δεδοµένα µας 24

δεν είναι MCAR, γιατί αυτή η άρνηση σχετίζεται µε κοινωνικού και ταξικούς λόγους που αφορούν τα εισοδήµατα. Όµως αξίζει να παρατηρήσουµε ότι κατά την διάρκεια µιας έρευνας «είναι η τιµή της παρατήρησης που είναι σηµαντική και όχι η απουσία της.» Έτσι, αν κάποιος αρνείται να αποκαλύψει το προσωπικό, αλλά και το οικογενειακό του εισόδηµα, τότε µπορούµε να θεωρήσουµε ότι τα δεδοµένα µας είναι MCAR από την στιγµή που η µεταβλητή εισόδηµα δεν έχει καµία σχέση µε αυτή την άρνηση. 2.3 Non- ignorable missingness (NIM) Η περίπτωση του µηχανισµού ΝΙΜ θεωρείται η αντίθετη του µηχανισµού MCAR. Αυτό συµβαίνει γιατί η πιθανότητά του να έχουµε χαµένες τιµές σε κάποια µεταβλητή εξαρτάται από την µεταβλητή την ίδια. Για παράδειγµα µία ερώτηση σε κάποιο ερωτηµατολόγιο, που αφορά κάποια συγκεκριµένη δεξιότητα, είναι δυνατόν να µην απαντηθεί, γιατί αυτή η ιδιότητα να είναι πραγµατικά πολύ χαµηλή. Γενικά λοιπόν θα µπορούσαµε να δώσουµε τον παρακάτω τύπο σε αυτό τον µηχανισµό: f ( M Y, φ) f ( M φ), για όλα τα Y,φ και η f ( M Y, φ ) εξαρτάται από την Y mis (2.2) Ο χειρισµός αυτού του µηχανισµού είναι ίσως και ο δυσκολότερος τη στιγµή που όλες οι µέθοδοι εισαγωγής τιµών µπορεί να είναι µεροληπτικές εκτός και αν εφαρµοστούν ανάλογα για τον µηχανισµό χαµένων τιµών, ακόµα όµως εξαρτάται από τα µη παρατηρούµενα δεδοµένα. Εποµένως, είναι δύσκολο να µοντελοποιήσουµε ή ακόµα και να έχουµε πρόσβαση σε τέτοια µοντέλα. Μια προσεχτική και λεπτοµερής ανάλυση είναι το κλειδί για την εξέταση τέτοιων περιπτώσεων. Παίρνοντας υπόψη µας το προηγούµενο παράδειγµα, που αφορά το οικογενειακό εισόδηµα στην περίπτωση άρνησης αποκάλυψης λόγω χαµηλού οικονοµικού εισοδήµατος, τα δεδοµένα µας είναι NIM. 25

2.4 Missing at random (MAR) Μία µέση περίπτωση ανάµεσα στις δύο ακραίες που παρουσιάσαµε προηγουµένως είναι η περίπτωση του µηχανισµού MAR. Με έναν λιγότερο αυστηρό τύπο από αυτόν του MCAR θεωρούµε ότι η απουσία των χαµένων τιµών εξαρτάται αποκλειστικά από τις µεταβλητές που είναι παρατηρούµενες, δηλαδή τις Y obs και όχι από τα τµήµατα των µεταβλητών που λείπουν. Μαθηµατικά µπορούµε να διατυπώσουµε το παραπάνω ως εξής: f ( M Y, φ) = f ( Y obs φ), για όλα τα Y mis,φ (2.3) Οι περισσότερες µέθοδοι ανάλυσης προβληµάτων µε χαµένες τιµές έχουν σχεδιαστεί µε βάση αυτό τον συλλογισµό. Ο µηχανισµός MCAR είναι ένα υποσύνολο του µηχανισµού MAR. Αν σκεφτούµε ξανά το παράδειγµα που αναφέρθηκε παραπάνω, σχετικά µε το οικογενειακό εισόδηµα µία περίπτωση, όπου θα µπορούσαµε να θεωρήσουµε ότι τα δεδοµένα µας είναι MAR, όταν κάποιος που ρωτήθηκε για την έρευνα και πάσχει από κατάθλιψη, αρνηθεί να απαντήσει στο ερώτηµα που αφορά το εισόδηµα του. Στην περίπτωση αυτή τα δεδοµένα που παίρνουµε είναι MAR, εφόσον βέβαια η άρνηση αυτή δε σχετίζεται µε το επίπεδο του µισθού (χαµηλό ή υψηλό), αλλά από την ανεξάρτητη µεταβλητή της κατάθλιψης. Για να καταλάβουµε καλύτερα πως λειτουργούν οι παραπάνω µηχανισµοί, ας θεωρήσουµε ότι προσπαθούµε να µοντελοποιήσουµε τη συνάρτηση βάρους (W ) σε σχέση µε το φύλο ( S ). Στα αποτελέσµατα που θα πάρουµε κατά την έρευνά µας το πιο πιθανό είναι κάποιοι να µην επιθυµούσαν να αποκαλύψουν το βάρος τους και εποµένως να έχουµε κάποιες χαµένες τιµές για την µεταβλητή W. Παίρνοντας υπόψη µας τους τρεις παραπάνω µηχανισµούς µπορούµε να βγάλουµε τα παρακάτω συµπεράσµατα που αφορούν την άρνηση αποκάλυψης του βάρους σε σχέση µε το φύλο των ερωτηθέντων. 26

Έτσι: 1) Μία περίπτωση είναι όταν δεν υπάρχει κάποιος ειδικός λόγος κάποιοι ερωτηθέντες να µην αποκαλύψουν το βάρος τους και κάποιοι άλλοι να το αποκαλύψουν. Σε αυτή την περίπτωση οι χαµένες τιµές στη µεταβλητή W δεν έχουν σχέση, ούτε µε την µεταβλητή W, αλλά ούτε και µε την µεταβλητή S. Τότε µπορούµε να πούµε ότι τα δεδοµένα µας είναι MCAR. 2) Μία άλλη περίπτωση είναι κάποιοι ερωτηθέντες του ένα ή του άλλου φύλου να µην είναι τόσο πρόθυµοι να αποκαλύψουν το βάρος τους (πιθανότατα το γυναικείο φύλο!) και έτσι να µας δηµιουργηθούν ξανά χαµένες τιµές στα δεδοµένα µας. Σε αυτή την περίπτωση όµως, οι χαµένες µεταβλητές στην µεταβλητή W εξαρτώνται αποκλειστικά από τις τιµές της µεταβλητής S. Έτσι σε αυτήν την περίπτωση µπορούµε να πούµε ότι τα δεδοµένα µας είναι MAR. 3) Η τελευταία περίπτωση είναι, όταν πιο παχουλοί ερωτηθέντες είναι λιγότερο πρόθυµοι από λεπτότερους να αποκαλύψουν το βάρος τους. Σε αυτήν την περίπτωση οι χαµένες τιµές της W εξαρτώνται από τις µη παρατηρήσιµες τιµές της ίδιας της µεταβλητής. Σε τέτοιες περιπτώσεις µπορούµε να πούµε ότι τα δεδοµένα µας είναι NIM. Είναι λοιπόν απαραίτητο, µε σκοπό να διευκρινίσουµε το µηχανισµό που βρίσκεται πίσω από τις χαµένες τιµές να εφαρµόσουµε µία µέθοδο στατιστικής ανάλυσης στα δεδοµένα που ήδη έχουµε στη διάθεσή µας. Μια λογική προσέγγιση και µία κοινή πρακτική µε σκοπό να ελέγξουµε διάφορες µεθόδους για δεδοµένα που δεν είναι συµπληρωµένα όλα τα πεδία των τιµών τους, είναι να αναπαράγουµε τεχνητές χαµένες τιµές από ήδη συµπληρωµένες βάσεις δεδοµένων. Με αυτόν τον τρόπο, µπορούµε να ελέγξουµε την αντοχή και την δύναµη των προτεινοµένων µεθόδων κάτω από διαφορετικές περιπτώσεις απωλειών. Αυτό είναι κρίσιµο όταν θέλουµε να επιλέξουµε ποια µέθοδο θα χρησιµοποιήσουµε για τον χειρισµό των χαµένων τιµών, χωρίς να έχουµε γνώση του µηχανισµού. 27

Στο επόµενο κεφάλαιο αναλύουµε κάποιες από τις πιο συχνά χρησιµοποιούµενες µεθόδους για τον χειρισµό των χαµένων τιµών. 28