3. Missing Data Techniques (MDTs)

Σχετικά έγγραφα
ΚΕΦΑΛΑΙΟ 1 Ο. 1.1 Εισαγωγή Γενικά για χαµένες τιµές (missing values) στα δεδοµένα

2. Missing Data mechanisms

Συστήµατα Μη-Γραµµικών Εξισώσεων Μέθοδος Newton-Raphson

Κεφάλαιο 2. Μέθοδος πεπερασµένων διαφορών προβλήµατα οριακών τιµών µε Σ Ε

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

Αριθµητική Ολοκλήρωση

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Μέθοδος μέγιστης πιθανοφάνειας

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)


Κεφάλαιο 1. Αριθµητική ολοκλήρωση συνήθων διαφορικών εξισώσεων και συστηµάτων

Κεφάλαιο 7 Βασικά Θεωρήµατα του ιαφορικού Λογισµού

ΚΕΦΑΛΑΙΟ 2 ΜΗ ΓΡΑΜΜΙΚΕΣ ΕΞΙΣΩΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μεθοδολογίες παρεµβολής σε DTM.

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες -Εαρινό Εξάµηνο 2016 ιδάσκων : Π.

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.

Πρακτική µε στοιχεία στατιστικής ανάλυσης

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΙΙΙ. ΕΠΩΝΥΜΟΙ ΝΟΜΟΙ ΘΝΗΣΙΜΟΤΗΤΑΣ Α. ΓΕΝΙΚΑ. x Ο πρώτος νόµος θνησιµότητας οφείλεται στον De Moivre, είναι γραµµικός, s(x)

Στατιστική. Εκτιμητική

ΑΞΙΟΠΙΣΤΙΑ ΚΑΙ ΣΥΝΤΗΡΗΣΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής. Pr T T0

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Κεφάλαιο 6 Παράγωγος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

5. ΜΕΘΟΔΟΙ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 14 Μαρτίου /34

Στατιστική Συμπερασματολογία

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Εισόδημα Κατανάλωση

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Σχολικός Σύµβουλος ΠΕ03

Απλή Γραμμική Παλινδρόμηση I

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 4

4.ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

1 Συνοπτική ϑεωρία. 1.1 Νόµοι του Προτασιακού Λογισµού. p p p. p p. ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Σύµφωνα µε την Υ.Α /Γ2/ Εξισώσεις 2 ου Βαθµού. 3.2 Η Εξίσωση x = α. Κεφ.4 ο : Ανισώσεις 4.2 Ανισώσεις 2 ου Βαθµού

Ορισµός. (neighboring) καταστάσεων. ηλαδή στην περίπτωση αλυσίδας Markov. 1.2 ιαµόρφωση µοντέλου

15 εκεµβρίου εκεµβρίου / 64

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Αναγνώριση Προτύπων Ι

Εισαγωγή στην επιστήµη των υπολογιστών ΑΡΙΘΜΗΤΙΚΑ ΣΥΣΤΗΜΑΤΑ

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Μέθοδος μέγιστης πιθανοφάνειας

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Μέθοδοι μονοδιάστατης ελαχιστοποίησης


Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ Γραµµική Εκτίµηση Τυχαίων Σηµάτων Φίλτρο Kalman

3. ΕΠΙΛΥΣΗ ΓΡΑΜΜΙΚΟΥ ΑΝΤΙΣΤΡΟΦΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΜΕ ΤΗ ΜΕΘΟΔΟ ΜΗΚΩΝ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΙΕΡΕΥΝΗΣΗ ΚΑΙ ΑΝΑΛΥΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΥΠΟΛΟΓΙΣΜΩΝ ΚΛΩΘΟΕΙ ΟΥΣ, Ι ΙΑΙΤΕΡΑ ΣΕ ΜΗ ΤΥΠΙΚΕΣ ΕΦΑΡΜΟΓΕΣ.

Εισαγωγή στην επιστήµη των υπολογιστών. Υπολογιστές και Δεδοµένα Κεφάλαιο 3ο Αναπαράσταση Αριθµών

ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΕΡΩΤΗΣΕΙΣ ΣΤΗΝ ΟΙΚΟΝΟΜΕΤΡΙΑ II ΗΜΗΤΡΙΟΣ ΘΩΜΑΚΟΣ

Εισαγωγή στην επιστήµη των υπολογιστών. Αναπαράσταση Αριθµών

οµή δικτύου ΣΧΗΜΑ 8.1

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

1.4 Λύσεις αντιστρόφων προβλημάτων.

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Αριθµητική Γραµµική ΑλγεβραΚεφάλαιο 4. Αριθµητικός Υπολογισµός Ιδιοτιµών 2 Απριλίου και2015 Ιδιοδιανυσµάτων 1 / 50

Κεφάλαιο 4 ΣΥΣΧΕΤΙΣΗ ΚΑΙ ΠΑΛΙΝ ΡΟΜΗΣΗ. 4.1 Συσχέτιση δύο τ.µ.

Case 06: Το πρόβληµα τωνlorie και Savage Εισαγωγή (1)

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

(p 1) (p m) (m 1) (p 1)

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Συνήθεις ιαφορικές Εξισώσεις, Απαντήσεις-Παρατηρήσεις στην Εξέταση Περιόδου Σεπτεµβρίου.

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εφαρμοσμένη Στατιστική

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

3.9 Πίνακας συνδιακύμανσης των παραμέτρων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

Transcript:

Κεφάλαιο 3 ο 3. (MDTs) 3. Εισαγωγή Όσα έχουν γραφτεί για τα προβλήµατα που περιέχουν χαµένες τιµές είναι σχετικά πρόσφατα. Οι µέθοδοι χειρισµού χαµένων τιµών (Mssng Data Technques (MDTs)) που έχουν προταθεί σε αυτά τα συγγράµµατα για την ανάλυση των χαµένων τιµών είναι πολλές. Σύµφωνα µε τους Lttle and Rubn µπορούµε να τις χωρίσουµε σε τέσσερεις κατηγορίες (που όµως δεν είναι και οι µοναδικές): ) Στις διαδικασίες που βασίζονται κυρίως στα δεδοµένα που έχουν καταγραφεί, Σε αυτήν την περίπτωση, όταν για κάποιες µεταβλητές δεν έχουµε καταγραµµένα δεδοµένα για κάποια τµήµατα τους, µε µία απλή µέθοδο (η πιο συνηθισµένη αυτής της κατηγορίας είναι η Lstwse Deleton) αγνοούµε εντελώς τις µεταβλητές που περιέχουν τα ασυµπλήρωτα τµήµατα και προχωρούµε την ανάλυσή µας µόνο µε βάση τις µεταβλητές που είναι συµπληρωµένες. Με αυτήν την στρατηγική µπορούµε γενικά εύκολα να έχουµε ικανοποιητικά αποτελέσµατα µε κυρίως µικρά σύνολα δεδοµένων. Όµως, µπορεί να οδηγήσει σε διαστρέβλωση των αποτελεσµάτων. Επιπλέον δεν είναι πολύ αποδοτική σε πολλές περιπτώσεις, ειδικά όταν έχει να κάνει µε εξαγωγή συµπερασµάτων για υποσύνολα του πληθυσµού. 2) Στις διαδικασίες µε βάρη, Τα συµπεράσµατα από δείγµατα ερευνών σε δεδοµένα χωρίς ασυµπλήρωτες τιµές, συνήθως εκτιµώνται από το βάρος σχεδιασµού 29

τους (desgn weght), το οποίο είναι η αντιστρόφως ανάλογη πιθανότητα της επιλογής τους. Για παράδειγµα, έστω ότι θέτουµε y να είναι η τιµή της µεταβλητής Yγια το τµήµα του πληθυσµού. Τότε ο µέσος όρος του πληθυσµού συνήθως εκτιµάται από τον παρακάτω τύπο των Horvtz-Thomson (952): n n π y π = = (3.) ( )( ) όπου τα αθροίσµατα εφαρµόζονται επάνω τα τµήµατα των δειγµάτων και ο όρος π είναι η πιθανότητα να περιέχεται το τµήµα πληθυσµού στο δείγµα µας. Οι διαδικασίες σε σχέση µε βάρη στις περιπτώσεις των ασυµπλήρωτων δεδοµένων µετατρέπουν κατάλληλα τα βάρη µε σκοπό να ενσωµατωθούν και οι περιπτώσεις µε τα ασυµπλήρωτα δεδοµένα σαν να ήταν µέρη του δείγµατος. Έτσι ο τύπος (3.) αντικαθίσταται από το παρακάτω: n ( π p ) y n ( π p ) (3.2) όπου τώρα τα αθροίσµατα εφαρµόζονται επάνω σε τµήµατα του δείγµατος και ο όρος p είναι µία εκτίµηση της πιθανότητας της µονάδας, η οποία είναι συνήθως ανάλογη µονάδων σε κάποιο υποσύνολο του δείγµατος. Στη συνέχεια δεν θα αναφερθούµε περαιτέρω σε αυτά τα µοντέλα. 3) Στις διαδικασίες που βασίζονται στην εισαγωγή δεδοµένων, (mputaton methods) Η εισαγωγή τιµών είναι γενικά µία πολύ ευέλικτη µέθοδος για τον χειρισµό των προβληµάτων που περιέχουν χαµένες τιµές. Ωστόσο 30

έχει και κάποια µειονεκτήµατα, κατά λέξη τα λόγια των Dempster and Rubn (983) ήταν: «Η ιδέα της εισαγωγής τιµών είναι ελκυστική, αλλά ταυτόχρονα και επικίνδυνη. Είναι ελκυστική, γιατί παρασέρνει τον χρήστη σε µία ευχάριστη κατάσταση να πιστέψει ότι τα δεδοµένα είναι συµπληρωµένα τελικά και αυτό είναι και το επικίνδυνο, γιατί συσσωρεύει καταστάσεις όπου το πρόβληµα είναι σχετικά µικρό και λογικά είναι σωστό να το χειριστούµε µε αυτόν τον τρόπο, εποµένως περιπτώσεις µε πρότυπες (standard) εκτιµήσεις να µπορεί περιέχουν κάποιο βαθµό διαστρέβλωσης.» Όπως έχουµε ήδη αναφέρει και στην εισαγωγή, η µέθοδος της συµπλήρωσης των χαµένων τιµών είναι από τις ποιο διαδεδοµένες. Οι µέθοδοι αυτοί απευθύνονται κυρίως σε αριθµητικά δεδοµένα και παράγουν συνεχείς εκτιµήσεις. Το ολοκληρωµένο σύνολο δεδοµένων που προκύπτει από µία τέτοια διαδικασία έπειτα αναλύεται από πρότυπες (standard) µεθόδους στατιστικής ανάλυσης, όπως για παράδειγµα η ανάλυση παλινδρόµησης (regresson analyss). Αυτές οι τεχνικές είναι ευρέως γνωστές ως µέθοδοι εισαγωγής (mputaton methods). Το πρόβληµα είναι ότι περισσότερες από τις πιο γνωστές µεθόδους εισαγωγής παράγουν γενικά εκτιµήσεις συνεχών τιµών, πράγµα που δεν είναι ρεαλιστικό στην περίπτωση που αντικαθιστούν µεταβλητές που είναι κατηγορικές. Από την στιγµή που η πλειοψηφία των µεταβλητών στα δεδοµένα λογισµικού είναι κατηγορικές τιµές µε χαµένα δεδοµένα, είναι λογικό να χρησιµοποιούµε µία µέθοδο εισαγωγής δεδοµένων που να παράγει κατηγορικές τιµές έτσι ώστε να συµπληρώνει τα ανολοκλήρωτα σύνολα δεδοµένων και έπειτα να τα χρησιµοποιεί σε ένα µοντέλο πρόβλεψης. Το να διαλέξουµε όµως την σωστή µέθοδο συµπλήρωσης των χαµένων τιµών είναι πολύ δύσκολο και µπορεί να αποβεί καταστροφικό για τη µελέτη µας. Αυτό συµβαίνει εξαιτίας της διασποράς των χαµένων τιµών ανάµεσα στα δεδοµένα. Ιδιαίτερα δύσκολο είναι να εκτιµήσουµε σύµφωνα µε ποιο µηχανισµό λείπουν οι τιµές σε µικρότερα πακέτα 3

δεδοµένων λόγω του ότι δεν µπορούµε να κρίνουµε σωστά εξαιτίας του µικρού µεγέθους του δείγµατος. Σύµφωνα µε τους Lttle and Rubn, οι µέθοδοι της εισαγωγής τιµών βασίζονται σε µέσους όρους ή σε προβλέψεις µε βάση τις υποθετικές κατανοµές των τιµών που λείπουν. Αυτό προϋποθέτει την ύπαρξη µιας µεθόδου που να δηµιουργεί µία υποθετική κατανοµή των δεδοµένων η οποία να βασίζεται στα συµπληρωµένα δεδοµένα. Υπάρχουν δύο γενικές προσεγγίσεις για να επιτύχουµε αυτήν την κατανοµή: Α)τα explct µοντέλα, όπου η υποθετική κατανοµή βασίζεται σε κάποιο στατιστικό µοντέλο και εποµένως τα αποτελέσµατα του είναι ξεκάθαρα και σαφή. Β)τα mplct µοντέλα, όπου εστιάζουν στην εφαρµογή κάποιου αλγορίθµου, µερικές φορές βασίζονται σε όχι και τόσο σαφή µοντέλα. Τα αποτελέσµατά τους δεν είναι τόσο ξεκάθαρα και χρειάζονται µία πιο προσεκτική εξέταση για να εξακριβώσουµε αν είναι λογικά. Μερικές από τις πιο διαδεδοµένες µεθόδους εισαγωγής τιµών είναι οι hot deck mputaton (HDI), mean mputaton(mi) και η regresson mputaton (RI) στις οποίες θα αναφερθούµε αναλυτικότερα παρακάτω. Τέλος, µία τελευταία κατηγορία είναι η: 4) ιαδικασίες βασιζόµενες σε µοντέλα, Ένα ευρύ σύνολο διαδικασιών αναλύεται µε τη βοήθεια της δηµιουργίας ενός µοντέλου για τα παρατηρούµενα δεδοµένα και συµπεράσµατα που αφορούν την πιθανοφάνεια ή την µεταγενέστερη (ή «εκ των υστέρων») κατανοµή επάνω σε αυτό το µοντέλο, όπως και οι διάφορες παράµετροι εκτιµώνται µε διαδικασίες, όπως για παράδειγµα η µέγιστη πιθανοφάνεια (maxmum lkelhood). Πλεονέκτηµα αυτής της µεθόδου είναι η ελαστικότητα και η δυνατότητα εκτίµησης της διασποράς που υπάρχει ανάµεσα στα δεδοµένα. 32

Στη συνέχεια αναλύουµε κάποιες από τις µεθόδους που χρησιµοποιούνται για τον χειρισµό των χαµένων τιµών στα διάφορα έργα. Πρακτικά εµείς ασχοληθήκαµε µε τέσσερεις από αυτές, τις: Lstwse Deleton (LD), Mean Imputaton(MI), Regresson Imputaton (RI) και Expectaton Maxmzaton (EM). Επιπλέον αναφερόµαστε και σε κάποιες άλλες που χρησιµοποιήθηκαν κατά καιρούς σε διάφορες µελέτες 3.2 LISTWISE DELETION (LD) Η Lstwse Deleton (LD) είναι µία από τις µεθόδους της κατηγορίας των deleton methods, οι οποίες χειρίζονται τα δεδοµένα αγνοώντας τις µεταβλητές µε χαµένες τιµές. Η LD ανάλυση ή γνωστή και ως complete-case analyss σύµφωνα µε τους Lttle and Rubn, επικεντρώνει την προσοχή της σε έργα όπου όλες οι µεταβλητές είναι παρόν και δεν υπάρχουν ασυµπλήρωτα δεδοµένα. Έτσι, σύµφωνα µε την LD, περιπτώσεις µε χαµένες τιµές για οποιανδήποτε από τις µεταβλητές, αποκλείονται από την ανάλυση. Πλεονεκτήµατα αυτής της προσέγγισης είναι τα εξής: ) η απλότητα της µεθόδου. Μπορούµε δηλαδή να εφαρµόσουµε στα δεδοµένα συγκεκριµένες µεθόδους στατιστικής ανάλυσης χωρίς δυσκολία εφαρµογής τους. Εξαιτίας αυτής της απλότητας της χρήσης της µεθόδου στην πράξη, πολλά λογισµικά στατιστικής ανάλυσης χρησιµοποιούν την LD ανάλυση ως προεπιλογή. 2) η δυνατότητα σύγκρισης των µονοδιάστατων στατιστικών, αφού όλες εκτιµώνται σύµφωνα µε ένα κοινό δείγµα δεδοµένων. 3) η δυνατότητα της να κάνει στατιστικούς υπολογισµούς πάνω σε ένα συνηθισµένο δείγµα από σύνολα περιπτώσεων. Τα µειονεκτήµατα της µεθόδου πηγάζουν από το γεγονός της απώλειας πληροφοριών από τα σύνολα δεδοµένων, ιδιαίτερα στις περιπτώσεις που έχουµε µεγάλα ποσοστά χαµένων τιµών και εποµένως έχουµε µείωση της ακρίβειας των αποτελεσµάτων. Αυτό είναι ιδιαιτέρα εµφανές σε περιπτώσεις της εµπειρικής τεχνολογίας λογισµικού, όπου τα 33

σύνολα των δεδοµένων είναι συνήθως πολύ µικρά, (για παράδειγµα Ν<<00) εξαιτίας της δυσκολίας που υπάρχει για συγκέντρωση µεγαλύτερων συνόλων δεδοµένων. Αφαιρώντας εποµένως δεδοµένα από τόσα µικρά σύνολα τα κάνουµε ακόµα µικρότερα και σε κάποιες περιπτώσεις τα κάνουµε τόσο µικρά που οι µέθοδοι στατιστικής ανάλυσης δύσκολα να βγάλουν έγκυρα αποτελέσµατα. Όταν έχουµε σύνολα δεδοµένων που είναι µικρά, δύσκολα µπορούµε να επιτύχουµε σηµαντικά αποτελέσµατα και ισχυρά µοντέλα σχεδιασµού τους. Επιπλέον, ένα ακόµα ζήτηµα που προκύπτει από τη χρήση της µεθόδου αυτής, µαζί µε την εµφανή απώλεια πληροφοριών, είναι και η πιθανή διαστρέβλωση των αποτελεσµάτων. Αυτό µπορεί να συµβεί στην περίπτωση που τα δεδοµένα στα οποία καταλήξαµε να εξετάσουµε δεν είναι ένα τυχαίο υποσύνολο του αρχικού µας (και όχι ολοκληρωµένου) δείγµατός µας. Πιστεύουµε ότι είναι εξαιρετικά σηµαντικό να τονιστεί αυτή η προοπτική της LD. Η φαινοµενικά «αθώα» διαδικασία που ακολουθεί η µέθοδος αυτή για την εξαγωγή αποτελεσµάτων, έχει αποδειχθεί ότι δεν χειρίζεται σωστά τα ασυµπλήρωτα σύνολα δεδοµένων όταν οι τιµές αυτών δεν λείπουν εντελώς στην τύχη δηλαδή, όταν ο µηχανισµός εµφάνισης των δεδοµένων δεν είναι Mssng completely at random (MCAR). Το αποτέλεσµα της κατασκευής ενός µοντέλου πρόβλεψης πάνω στα διαστρεβλωµένα δεδοµένα που δηµιουργήθηκαν από την ακατάλληλη χρήση της LD, είναι ότι το µοντέλο αυτό πρόβλεψης θα είναι επίσης διαστρεβλωµένο και εποµένως παραπλανητικό. Αυτή η διαστρέβλωση µπορεί να γίνει εµφανής µε πολλούς τρόπους σε αυτούς που θα χρησιµοποιήσουν τα αποτελέσµατα των µοντέλων αυτών. Για παράδειγµα, το µοντέλο µπορεί να έχει διαστρεβλωθεί σε τέτοιο βαθµό, όπου φαινοµενικά θα εκτελείται τόσο καλά από άποψη ακρίβειας, όπου θα παρασέρνει τον χρήστη σε µη ρεαλιστικές προσδοκίες σε σχέση µε τα δεδοµένα σύµφωνα πάντα µε αυτό το µοντέλο πρόβλεψης. Τα µειονεκτήµατα αυτά όµως της µεθόδου της LD είναι δικαιολογηµένα αν σκεφτούµε την απλότητα της µεθόδου και ακόµα περισσότερο µπορούµε να τα θεωρήσουµε και αποδεκτά στην περίπτωση που έχουµε µικρό ποσοστό χαµένων τιµών στα δεδοµένα µας και ο µηχανισµός εµφάνισης των χαµένων τιµών είναι MCAR, τότε η διαστρέβλωση θεωρείται σχεδόν αµελητέα. Αυτό είναι ακόµα πιο πιθανόν τη στιγµή που η αναλογία µε τις περιπτώσεις που 34

περιέχουν συµπληρωµένες τιµές είναι υψηλή. Γενικά όµως είναι δύσκολο να διατυπώσουµε εµπειρικούς κανόνες, από την στιγµή που ο βαθµός της διαστρέβλωσης στα δεδοµένα και η απώλεια σηµαντικών πληροφοριών δεν εξαρτάται µόνο από την αναλογία των περιπτώσεων που περιέχουν συµπληρωµένες τιµές και τα µοτίβα µε τα οποία οι χαµένες τιµές εµφανίζονται, αλλά επίσης και από τον βαθµό στον οποίο τα συµπληρωµένα και τα ασυµπλήρωτα δεδοµένα διαφέρουν και σε διάφορες παραµέτρους που επηρεάζουν, σύµφωνα µε τους Lttle and Rubn. Έστω λοιπόν ότι θέτουµε θ cc έναν εκτιµητή µιας κλιµακωτής παραµέτρου θ για τις περιπτώσεις µε συµπληρωµένες τιµές. Κάποιος θα µπορούσε να µετρήσει την αύξηση της διαφοράς µεταξύ των θ cc σε σχέση µε τον θ NM, ο οποίος είναι ο εκτιµητής που να έχει µετρηθεί µε βάση την απουσία των χαµένων τιµών. Η σχέση που θα ισχύει είναι η: * Var( θ ) = Var( θ )( + cc ), (3.3) cc NM όπου το * cc είναι η αναλογία αύξησης της διαφοράς στην απώλεια των πληροφοριών. Ένας πιο πρακτικός τύπος για την εκτίµηση της απώλειας της απόδοσης είναι ο cc, όπου ισχύει: Var( θ ) = Var( ˆ θ )( + ), (3.4) cc EFF cc µε ˆEFF θ, έναν αποδοτικό εκτιµητή της παραµέτρου θ βασιζόµενο σε όλα τα διαθέσιµα δεδοµένα. 3.3 MEAN IMPUTATION (MI) Μία πολύ γνωστή µέθοδος εισαγωγής δεδοµένων είναι η Mean Imputaton (MI). Την ΜΙ την τοποθετούµε στην υποκατηγορία των explct µοντέλων. Σύµφωνα µε αυτήν τη µέθοδο οι χαµένες τιµές µιας µεταβλητής 35

αντικαθίστανται από τον µέσο όρο που σχηµατίζουν οι παρατηρούµενες τιµές της ίδιας µεταβλητής. Είναι µία γενικά απλή και εύκολη µέθοδος που αποδίδει σωστά αποτελέσµατα, ειδικά, όταν έχουµε να κάνουµε µε έγκυρα δεδοµένα που είναι κατανεµηµένα φυσιολογικά. Οι Anderson, Baslevsky and Hum λένε για την συγκεκριµένη µέθοδο: «Στις περιπτώσεις φυσιολογικής κατανοµής των δεδοµένων το δείγµα των µέσων όρων µας παρέχει µία ικανοποιητική εκτίµηση για την τιµή που απουσιάζει» Όµως, αν εισάγουµε για όλες τις χαµένες τιµές του x τον µέσο όρο, η διαφορά των τιµών του x θα συρρικνωθεί, εφόσον όλες οι µεταβλητές που θα εισαχθούν θα είναι ίδιες και δεν θα υπάρχει κάποια διαφορά. Η χρήση της MI επηρεάζει τη σχέση µεταξύ των εισαγόµενων δεδοµένων και οποιασδήποτε άλλης µεταβλητής. Εποµένως, αν εισαγάγουµε µεγάλο αριθµό δεδοµένων µε την χρήση του µέσου όρου, η συχνότητα της κατανοµής των δεδοµένων που εισήγαµε µπορεί να γίνει παραπλανητική, από τη στιγµή που τόσες µεταβλητές µε την ίδια τιµή θα δηµιουργήσουν µία πολύ λεπτή, «στενή» κατανοµή. Ωστόσο πλεονεκτήµατα αυτής της µεθόδου θεωρείται η ευκολία της και το γεγονός ότι καµία περίπτωση δεν παραλείπονται περιπτώσεις (όπως συµβαίνει µε την LD). Ένα µειονέκτηµά της όµως µπορεί να θεωρηθεί η υποτίµηση της τιµής που λείπει. Για παράδειγµα, στην περίπτωση του εισοδήµατος είναι πιο πιθανό να µην απαντηθούν περιπτώσεις µε χαµηλότερο εισόδηµα από ότι υψηλότερο, όπως αναφέραµε και παραπάνω. Έτσι θα τοποθετήσουµε µεγάλες τιµές εισοδήµατος στις τιµές όπου κανονικά θα υπήρχαν µικρότερα εισοδήµατα. Σύµφωνα µε τους Lttle and Rubn µπορούµε να διακρίνουµε δύο περιπτώσεις όπου εισάγουµε µέσους όρους αντί για τις τιµές που λείπουν: α) uncondtonal mean mputaton, και β) condtonal mean mputaton. Τις παραθέτουµε µέσω δύο παραδειγµάτων: 36

3.3. Uncondtonal mean mputaton Έστω ότι y j η τιµή της µεταβλητής Y j για το τµήµα. Ένας σχετικά εύκολος τρόπος να εκτιµήσουµε τις τιµές που λείπουν στην y j είναι µε την βοήθεια του όρου y που δηλώνει τον µέσο όρο των παρατηρούµενων ( j ) j τιµών της Y j. Ο µέσος όρος των παρατηρούµενων και των χαµένων τιµών είναι τότε προφανώς το y. Η διαφορά των χαµένων τιµών από τις ( j ) j παρατηρούµενες στο δείγµα µας είναι: s ( n )( n ), (3.5) ( j) ( j ) jj όπου ( j ) s jj είναι η εκτιµώµενη διαφορά ανάµεσα στις ( j) n διαθέσιµες περιπτώσεις. Όταν ο µηχανισµός εµφάνισης των δεδοµένων είναι MCAR, ο όρος s είναι µία συνεπής εκτίµηση της αληθινής διαφοράς, όµως η διαφορά ( j ) jj του δείγµατος από το σύνολο των συµπληρωµένων δεδοµένων υποτιµά την διαφορά που δίνεται από τον παράγοντα ( j) ( n )( n ). Αυτή η υποτίµηση είναι φυσικό επόµενο της εισαγωγής χαµένων τιµών στο κέντρο της κατανοµής. Από τη στιγµή που η MI παραµορφώνει την «εµπειρική» κατανοµή των δειγµάτων για τις τιµές της µεταβλητής Y, εκτιµά τις ποσότητες που δεν είναι γραµµικές µε τα δεδοµένα, όπως συµβαίνει µε τη διαφορά ή τα ποσοστιαία σηµεία. Ως αποτέλεσµα δεν παράγουµε σωστές εκτιµήσεις αν χρησιµοποιήσουµε κάποια πρότυπη(standard) µέθοδο, επάνω στα συµπληρωµένα δεδοµένα. Ένα παρόµοιο πρόβληµα προκύπτει, αν οι τιµές της Y οµαδοποιηθούν σε υποκατηγορίες για οι χαµένες τιµές j αντικαθίστανται από την τιµή του κοινού µέσου όρου και εποµένως τοποθετούνται στην ίδια κατηγορία µε την µεταβλητή Y. j Η συνδιασπορά του δείγµατος µεταξύ δύο µεταβλητών π.χ. των Y και j Ykαπό ένα συµπληρωµένο σύνολο δεδοµένων είναι: s% ( n )( n ), (3.6) ( jk ) ( jk ) jk 37

όπου το ( jk ) n είναι ο αριθµός των περιπτώσεων που είναι παρατηρούµενες στις µεταβλητές Y και Y j k και η s% εκτιµάται από την παρακάτω σχέση: ( jk ) jk s% = ( y y )( y y ) ( n ), (3.7) ( jk ) ( j) ( k ) ( jk ) jk j j k k εl jk Από την στιγµή που ο µηχανισµός εµφάνισης των χαµένων τιµών είναι MCAR ο όρος s% είναι µία συνεπής εκτίµηση της συνδιασποράς, η εκτίµηση από τα ( jk ) jk συµπληρωµένα δεδοµένα υποτιµά το µέγεθος της συνδιασποράς από τον παράγοντα ( jk ) ( n ) ( n ). Επιπλέον, αν και ο πίνακας της συνδιασποράς των συµπληρωµένων δεδοµένων είναι θετικά ηµι-ορισµένος, η διασπορά και η συνδιασπορά είναι συστηµατικά εξασθενηµένες. Οι παράγοντες, για την διαφορά στην Y j και ο ( j) ( n )( n ) συνδιασπορά των Y j και συνδιασπορά και τον όρο s ( jk ) ( n ) ( n ) Y k, απλά υπολογίζουν τον όρο ( j) jj, για την s% για την ( jk ) jk για την διασπορά. Σε αυτό το σηµείο πρέπει να σηµειώσουµε ότι ο πίνακας της συνδιασποράς που προκύπτει δεν είναι γενικά θετικά ορισµένος και µερικές φορές δεν είναι ικανοποιητικός, ιδιαίτερα, όταν οι µεταβλητές είναι σε µεγάλο βαθµό συσχετιζόµενες. 3.3.2 Condtonal Mean mputaton Μία βελτίωση της παραπάνω µεθόδου είναι η µέθοδος της condtonal mean mputaton, την οποία µπορούµε να δούµε µέσα από το παρακάτω παράδειγµα. Μία πολύ κοινά χρησιµοποιούµενη µέθοδος σε έρευνες είναι η κατηγοριοποίηση των απαντηµένων και των µη απαντηµένων σε J προσαρµοσµένες οµάδες, ανάλογα µε το βάρος της κάθε οµάδας, βασιζόµενη στις παρατηρούµενες µεταβλητές και εισάγοντας τον µέσο όρο που σχηµατίζουν τα δεδοµένα που πάρθηκαν από τους απαντηθέντες, στους µη απαντηθέντες στην ίδια οµάδα. Υποθέτοντας ότι έχουµε ίση πιθανότητα 38

δειγµατοληψίας µε βάρη σταθερού δείγµατος, θέτουµε τον όρο y ως τον jr µέσο όρο των δεδοµένων που συλλέχθηκαν από τους απαντηθέντες στην έρευνα για την µεταβλητή Y στην οµάδα j. Η εκτίµηση που προκύπτει από τον µέσο όρο του Yαπό τα συµπληρωµένα δεδοµένα είναι: J r n j J y + y = y = y n, (3.8) j jr jr wc j= = = rj+ n j= Στην βιβλιογραφία της στατιστικής υπάρχουν πολλοί εκτιµητές των πιθανοτήτων για τους απαντηθέντες σε κάθε οµάδα. Ωστόσο εµείς δεν θα ασχοληθούµε περαιτέρω µε την σχέση της εισαγωγής µέσων όρων και των µεθόδων µε βάρη. 3.4 REGRESSION IMPUTATION (RI) Ακόµα µία µέθοδος της εισαγωγής τιµών είναι και η Regresson Imputaton (RI). Η RI ανήκει επίσης στην υποκατηγορία των explct µοντέλων. Η RI λειτουργεί ως εξής: αντικαθιστά τις τιµές που λείπουν µε προβλεπόµενες τιµές που βασίζονται σε ένα µοντέλο παλινδρόµησης. Αρχικά δηµιουργείται ένα µοντέλο παλινδρόµησης µε βάση τις παρατηρούµενες τιµές. Έπειτα κάθε περίπτωση µε τιµές που απουσιάζουν, αντικαθίσταται µε την προβλεπόµενη τιµή της, η οποία βρίσκεται, όταν αντικαθιστούµε τις παρατηρούµενες τιµές για αυτήν την περίπτωση στο µοντέλο παλινδρόµησης. Η Mean Imputaton µπορεί να θεωρηθεί ως µία ειδική περίπτωση της RI όπου οι προβλέψιµες τιµές είναι οµοιώµατα δεικτών αυτών των τιµών στα κελιά όπου οι µέσοι όροι συµπληρώνονται. Θα παρουσιάσουµε την µέθοδο της RI µε ένα παράδειγµα και έπειτα θα παραθέσουµε την µέθοδο του Buck s για την RI. Έστω λοιπόν ότι έχουµε ένα σύνολο ασυµπλήρωτων µονοδιάστατων δεδοµένων µε Y,..., YK πλήρως συµπληρωµένες και Y K συµπληρωµένο για τις r πρώτες περιπτώσεις και ασυµπλήρωτο για τις υπόλοιπες l r. Η RI 39

υπολογίζει την παλινδρόµηση της Y K στις Y,..., YK βασιζόµενη στις r συµπληρωµένες περιπτώσεις και έπειτα συµπληρώνει τις χαµένες τιµές από τις προβλέψεις που προέκυψαν µε µία προσέγγιση όπως την παρακάτω: Υποθέτουµε ότι µία υποθετική περίπτωση όπου έχει τις τιµές y K να λείπουν και τις y,..., yk να είναι πλήρως συµπληρωµένες. Η τιµή που απουσιάζει θα συµπληρωθεί µε την παρακάτω εξίσωση παλινδρόµησης: yˆ K K = βk 0.2... K + ) βkj.2... K yj j= % (3.9) ) όπου ο όρος % βk 0.2... K είναι η κλίση και ο όρος β.2... y Kj K j ο συντελεστής της µεταβλητής Y j στην παλινδρόµηση της Y K στις Y,... Y K βασιζόµενη στις r συµπληρωµένες περιπτώσεις. σχήµα 3. Στο παραπάνω σχήµα έχουµε γραφική αναπαράσταση της RI, για K = 2. Τα σηµεία που είναι σηµειωµένα µε σταυρούς είναι οι περιπτώσεις όπου και η Y και η Y 2 είναι παρατηρούµενες. Αυτές οι τιµές χρησιµοποιούνται για την εύρεση της εξίσωσης παλινδρόµησης: y = ˆ β + ˆ β y (3.0) ˆ 2 20 2 40

Στο σχήµα µας οι περιπτώσεις όπου η Y είναι παρατηρούµενη και η Y2έχει χαµένες τιµές αναπαρίσταται µε κύκλους επάνω στον άξονα του Y. Η RI τις αντικαθιστά µε βούλες πάνω στην γραµµή που σχηµατίζεται από την εξίσωση της παλινδρόµησης. Οι περιπτώσεις όπου η Y 2 είναι παρατηρούµενη και η Y έχει χαµένες τιµές, αναπαρίσταται στο διάγραµµα από την δεύτερη γραµµή. 3.4. Η µέθοδος του Buck s Η µέθοδος του Buck s (Buck, 960) επεκτείνει την εισαγωγή τιµών µε παλινδρόµηση σε ένα πιο γενικό µοτίβο χαµένων τιµών, για την περίπτωση όπου οι µεταβλητές που λείπουν έχουν γραµµική παλινδρόµηση πάνω στα παρατηρούµενα δεδοµένα. Αρχικά η µέθοδος υπολογίζει τον µέσο όρο µ και τον πίνακα συνδιασποράς Σ από τους µέσους όρους του δείγµατος και τον πίνακα συνδιασποράς των συµπληρωµένων δεδοµένων. Έπειτα χρησιµοποιεί αυτές τις εκτιµήσεις για να υπολογίσει το µικρότερο τετράγωνο της γραµµικής παλινδρόµησης των µεταβλητών µε χαµένες τιµές στις υπάρχουσες µεταβλητές για κάθε µοτίβο εµφάνισης των χαµένων τιµών. Τις προβλέψεις των χαµένων τιµών για την κάθε περίπτωση, µπορούµε να τις πάρουµε µε αντικατάσταση των τιµών των συµπληρωµένων µεταβλητών στην παλινδρόµηση. Η εισαγωγή διαφορετικών γραµµικών παλινδροµήσεων για το σύνολο των περιπτώσεων και για το κάθε µοτίβο εµφάνισης τιµών µπορεί να φαίνεται πολύ δύσκολη, αλλά στην πράξη είναι πολύ εύκολη, αν χρησιµοποιήσουµε κάποιον τελεστή σάρωσης (sweep operator). «Οι µέσοι όροι των παρατηρούµενων, αλλά και των εισαγόµενων τιµών από αυτή την διαδικασία θεωρούνται συνεπείς εκτιµήσεις, όταν ο µηχανισµός εµφάνισης των χαµένων τιµών είναι MCAR και ήπιες υποθέσεις σχετικά µε την κατανοµή των τιµών.» (Buck, 960). Αυτά τα αποτελέσµατα µπορούν να θεωρηθούν επίσης συνεπή, όταν ο µηχανισµός εµφάνισης των δεδοµένων εξαρτάται από τις παρατηρούµενες µεταβλητές, αν και επιπλέον υποθέσεις απαιτούνται σε αυτή την περίπτωση. 4

Πιο συγκεκριµένα, αν υποθέσουµε ότι στο παραπάνω σχήµα, σχήµα 3., η απουσία των τιµών του Y 2 εξαρτάται από τις τιµές του Y, δηλαδή ο µηχανισµός εµφάνισης των χαµένων τιµών είναι MAR, ακόµα και τότε η κατανοµή των τιµών των συµπληρωµένων δεδοµένων είναι διαφορετική από αυτή των ασυµπλήρωτων. Η µέθοδος του Buck s τοποθετεί τις περιπτώσεις µε ασυµπλήρωτα δεδοµένα σε µία γραµµή παλινδρόµησης, µία διαδικασία όπου µας κάνει να υποθέσουµε ότι η παλινδρόµηση του Y 2 στο Y είναι γραµµική. Αυτή η υπόθεση δεν είναι όµως αρκετά δυνατή, αρκεί να σκεφτούµε την περίπτωση όπου η εισαγωγή τιµών προϋποθέτει να έχουµε γνώση και πέρα από το πεδίο των συµπληρωµένων δεδοµένων, όπως ακριβώς συµβαίνει για τις περιπτώσεις µε ασυµπλήρωτα δεδοµένα στο παράδειγµα του σχήµατος 3., µε τις δύο µικρότερες και δύο µεγαλύτερες τιµές της µεταβλητής Y. Γενικά τα δεδοµένα που εισάγονται µε την βοήθεια της µεθόδου του Buck s έχουν λογικές εκτιµήσεις των µέσων όρων, αρκεί οι υποθέσεις που κάνουµε να είναι εφικτές. 3.5 EXPECTATION MAXIMIZATION (EM) Για να καταλάβουµε καλύτερα την λειτουργία αυτού του αλγορίθµου πρέπει να αναφέρουµε µερικά πράγµατα πρώτα σχετικά µε την Maxmum Lkelhood (ML). Σε πολλές περιπτώσεις µοτίβων εµφάνισης των χαµένων τιµών στην πράξη, δεν υπάρχουν συγκεκριµένες διαδικασίες που να µας επιτρέπουν να εφαρµόσουµε τις ML εκτιµήσεις κάνοντας παραγοντοποίηση της πιθανοφάνειας (lkelhood). Επιπλέον σε κάποια µοντέλα είναι εφικτή η παραγοντοποίηση, αλλά διάφοροι παράµετροι φ j κατά την παραγοντοποίηση δεν απαλείφονται και αν µεγιστοποιήσουµε τον κάθε παράγοντα από αυτούς ξεχωριστά, δεν µεγιστοποιούµε και την πιθανοφάνεια (lkelhood). Ο αλγόριθµος της ΕΜ είναι µία από της επαναληπτικές µεθόδους για τον υπολογισµό των τιµών σε περιπτώσεις όπου δεν µπορούµε να εφαρµόσουµε ακριβής ML εκτιµήσεις. 42

Υποθέτουµε λοιπόν ότι έχουµε ένα µοντέλο µε συµπληρωµένα δεδοµένα Y µε πυκνότητα f ( Υ ϑ) Γράφουµε: όπου, όπου ϑ άγνωστη παράµετρος. Y = ( Y, Y ) (3.) ms Y είναι οι παρατηρούµενες τιµές της µεταβλητής Y και το Y ms αναφέρεται στις τιµές που λείπουν. Για λόγους απλότητας θεωρούµε ότι ο µηχανισµός εµφάνισης χαµένων τιµών είναι MAR και ότι η µεγιστοποίηση της lkelhood υπολογίζεται από τον παρακάτω τύπο: L Y = f Y Y dy (3.2) ( ϑ ) (, ϑ) ms ms Παρόµοιοι υπολογισµοί ισχύουν και σε άλλες περιπτώσεις όπου ο µηχανισµός εµφάνισης των δεδοµένων δεν είναι MAR, αυτό όµως συνεπάγει και την ύπαρξη ενός παράγοντα που αντιπροσωπεύει τον µηχανισµό εµφάνισης που ισχύει στο κάθε µοντέλο. Στην περίπτωση όπου η lkelhood είναι διαφορετική, τότε µπορούµε να προβούµε σε ML εκτίµηση λύνοντας τη παρακάτω εξίσωση: D l ( ϑ Y ) ( ϑ Y ) ln L = = 0 ϑ (3.3) Όταν δεν είναι εφικτή µία µορφή που να πλησιάζει αυτή της παραπάνω εξίσωσης καταφεύγουµε στις επαναληπτικές µεθόδους, θέτουµε 0 ϑ ως την αρχική εκτίµηση του παράγοντα ϑ, για παράδειγµα µία εκτίµηση που βασίζεται αποκλειστικά στις παρατηρούµενες τιµές. Εποµένως ορίζουµε ως ( t) ϑ την εκτίµηση του ϑ κατά την t επανάληψη. Ο αλγόριθµος των Newton- Raphson ορίζει το ( t ) ϑ + ως εξής: ( ) l( ) ( t+ ) ( t ) ( t ) ( t ) ϑ = ϑ + I ϑ Y D ϑ Y (3.4) όπου I( Y ) ϑ είναι η παρατηρούµενη πληροφορία, και ορίζεται ως εξής: 43

I ( ϑ Y ) = 2 l ( ϑ Y ) ϑ ϑ (3.5) Αν η συνάρτηση της λογαριθµικής πιθανοφάνειας (loglkelhood) είναι κυρτή, τότε η ακολουθία του επαναληπτικού ( t) ϑ συγκλίνει µε την ML εκτίµηση του ˆ ϑ για το ϑ σε ένα µόνο βήµα αν η loglkelhood είναι τετραγωνική συνάρτηση του ϑ. Η επίλυση αυτή της περίπτωσης µπορεί να γίνει µε τη βοήθεια της µεθόδου της βαθµολογίας (scorng), όταν η παρατηρούµενη πληροφορία αντικαθίσταται από την αναµενόµενη στην παρακάτω εξίσωση: ( ) l( ) ( t+ ) ( t) ( t) ( t ϑ = ϑ + J ϑ D ϑ ) Y (3.6) όπου η αναµενόµενη πληροφορία ορίζεται ως εξής: ( ϑ Y ) 2 l J ( ϑ) = E{ I( ϑ Y) ϑ} = f ( Y ϑ) dy (3.7) ϑ ϑ Κάθε µία από τις παραπάνω µεθόδους περιέχει υπολογισµό του πίνακα των δεύτερων παραγώγων της loglkelhood. Σε περιπτώσεις µε περίπλοκα µοτίβα των χαµένων τιµών, τα δεδοµένα αυτού του πίνακα είναι συνήθως πολύπλοκες συναρτήσεις του ϑ. Επιπλέον ο πίνακας αυτός γίνεται πολύ µεγάλος όταν το ϑ έχει µεγάλες διαστάσεις. Συνεπώς, θα πρέπει να είµαστε προσεχτικοί µε τις µεθόδους που χρησιµοποιούµε, ώστε να µπορούµε να χειριστούµε αλγεβρικά τα δεδοµένα και να κάνουµε αποδοτικούς προγραµµατιστικούς χειρισµούς. Ένας εναλλακτικός αλγόριθµος (Berndt 974) δίνει έµφαση στο γεγονός ότι ο δειγµατικός πίνακας συνδιασποράς της βαθµολογίας D ( ϑ Y ) l είναι µία συνεπής εκτίµηση της πληροφορίας γειτονικά του επαναληπτική εξίσωση που προκύπτει είναι: ˆ ϑ. Η ( ) ( ) ϑ = ϑ + λ ϑ ϑ (3.8) ( t+ ) ( t ) ( t ) ( t ) tq Dl Y 44

όπου : n T (3.9) = ( ϑ) = ( ϑ)( ϑ) Q l l l είναι η loglkelhood για την -οστή περίπτωση και λείναι ένα θετικό µέγεθος σχεδιασµένο για να επιβεβαιώνει την σύγκλιση στο τοπικό µέγιστο. Αυτή η µέθοδος αποφεύγει τον υπολογισµό των δεύτερων παραγώγων της loglkelhood. Παρ όλα αυτά, η εφαρµογή του στην πράξη µπορεί να µας οδηγήσει σε λανθασµένα αποτελέσµατα εξαιτίας το ότι η ακρίβεια της προσέγγισης της πληροφορίας εξαρτάται από την εγκυρότητα του µοντέλου. Για αυτόν τον λόγο δεν συνιστάται η χρήση της γενικότερα. Μία εναλλακτική υπολογιστική στρατηγική για προβλήµατα µε µησυµπληρωµένα δεδοµένα, η οποία δεν απαιτεί τον υπολογισµό των δευτέρων παραγώγων ή των προσεγγίσεων (approxmated), είναι ο Expectaton Maxmzaton (EM) αλγόριθµος, µία µέθοδος όπου σχετίζει την ML εκτίµηση του ϑ από το l( Y ) ϑ µε την ML εκτίµηση που είναι βασισµένη στη loglkelhood του συνόλου των συµπληρωµένων τιµών, l( ϑ Y). Στην πλειοψηφία των περιπτώσεων ο ΕΜ αλγόριθµός είναι γενικά απλός στην εφαρµογή του, εύκολος και στην κατανόηση αλλά και στον υπολογισµό του. Ο ΕΜ αλγόριθµός είναι γενικά ένας επαναληπτικός αλγόριθµος για ML (maxmum lkelhood) εκτιµήσεις σε προβλήµατα µε χαµένες τιµές. Στην πράξη το εύρος των προβληµάτων που µπορούν να επιλυθούν µε τον ΕΜ είναι πάρα πολύ µεγάλο και περιλαµβάνει και ML για προβλήµατα που δεν περιέχουν συνήθως χαµένες τιµές, όπως της varance component εκτίµησης και της factor analyss (παραγοντική ανάλυση). Ο ΕΜ αλγόριθµός διατυπώνει µία σχετικά παλιά ιδέα για τον χειρισµό των χαµένων τιµών. Αυτή περιλαµβάνει: () αντικατάσταση των χαµένων τιµών από εκτιµώµενες τιµές, (2) εκτίµηση παραµέτρων, 45

(3) επανεκτίµηση των τιµών που λείπουν, υποθέτοντας ότι οι καινούργιοι παράµετροι είναι σωστοί, (4) επανεκτίµηση των παραµέτρων, και σαν επακόλουθο, επανάληψη της διαδικασίας αυτής µέχρι ταύτισης. Σε αυτές τις περιπτώσεις ο ΕΜ αλγόριθµος χρησιµοποιείται για µοντέλα όπου η loglkelhood των συµπληρωµένων τιµών τους ( ϑ, ) ln ( ϑ, ) l Y Y = L Y Y (3.20) ms ms είναι γραµµική για την Y ms. Γενικότερα, σε σύνολα δεδοµένων µε πολλές χαµένες τιµές είναι αναγκαίο να εξετάζεται και να εκτιµάται η loglkelhood, ( Y) l ϑ σε κάθε επανάληψη του αλγορίθµου. Λαµβάνοντας υπόψιν ότι ο ΕΜ αλγόριθµος έχει άρρηκτα δεθεί µε το γεγονός της συµπλήρωσης των χαµένων τιµών διαισθαντικά και ύστερα από την επανάληψη της διαδικασίας, δεν µας εκπλήσσει το γεγονός ότι αυτός ο αλγόριθµός είχε προταθεί πολλά πολλά χρόνια πριν σε διάφορα έργα (project), µερικά από αυτά είναι: 926: Η πρώτη αναφορά του φαίνεται να γίνεται από τον McKendrck σε κάποια ιατρική εφαρµογή του, 958: Ο Hartley συντάσσει την γενική θεωρία των µετρούµενων δεδοµένων και την αναπτύσσει διεξοδικά. Πολλές από τις βασικές ιδέες λειτουργίας του αλγορίθµού ΕΜ βρίσκονται σε αυτή την θεωρία, 970: Ο Baum χρησιµοποίησε τον αλγόριθµό αυτό σε ένα µοντέλο Markov και απόδειξε κάποια σηµαντικά µαθηµατικά αποτελέσµατα, 972: Οι Orchard και Woodbury ήταν οι πρώτοι που επεσήµαναν την κεντρική ιδέα και την ονόµασαν «αρχή της πληροφορίας για τα χαµένα δεδοµένα», 974: Ο Sundberg λαµβάνει υπόψιν του τις ιδιότητες των συναρτήσεων γενικής πιθανοφάνειας, 975: Οι Bean και Lttle ανάπτυξαν περαιτέρω την θεωρία για τα κανονικά µοντέλα, 46

977: Προτάθηκε ο όρος ΕΜ από τους Dempster, Lard και Rubn και το σύνολο της δουλειάς τους αποκάλυψε την γενικότητα του αλγορίθµου α) αποδεικνύοντας γενικά αποτελέσµατα στην συµπεριφορά του αλγορίθµου και συγκεκριµένα το ότι κάθε επανάληψη αυξάνει η lkelhood l( Y ) ϑ και β) παρουσιάζοντας ένα ευρύ σύνολο παραδειγµάτων και εφαρµογών. 977 Μετά από το 977 παρουσιάστηκαν πολλές άλλες καινούργιες χρήσεις του αλγορίθµου ΕΜ, όπως και πολλές εργασίες για τις ιδιότητες της σύγκλισης. Κάθε επανάληψη του αλγορίθµου ΕΜ αποτελείται από δύο βήµατα: το βήµα Ε(expectaton step) και το βήµα Μ(maxmzaton step). Αυτά τα βήµατα είναι συνήθως εύκολα να τα αντιληφθεί κάποιος στον τρόπο που δουλεύουν, επίσης εύκολα είναι να προγραµµατιστούν οι υπολογισµοί τους. Το καθένα από αυτά τα βήµατα έχει ξεκάθαρη στατιστική ερµηνεία. Ένα επιπλέον πλεονέκτηµα του αλγορίθµου αυτού είναι ότι µπορεί να δείξει αξιοπιστία σύγκλισης, µε την έννοια ότι κάτω από γενικές προϋποθέσεις κάθε επανάληψη αυξάνει την loglkehood l( ϑ Y ) και αν το l( Y ) φραγµένο και η ακολουθία l( ( t ) Y ) Γενικά, αν η ακολουθία ( t) ϑ ϑ είναι ϑ συγκλίνει µε την τιµή του l( Y ) ϑ. συγκλίνει, τότε αυτή θα συγκλίνει είτε στο κοντινότερο µέγιστο είτε στο κεντρικό (saddle) σηµείο του l( ϑ Y ). Ένα µειονέκτηµα αυτού του αλγορίθµου είναι ότι ο ρυθµός της σύγκλισης µπορεί να είναι τροµερά αργός όταν υπάρχει µεγάλη απώλεια τιµών. Οι Dempster, Lard και Rubn (977) έδειξαν ότι η σύγκλιση είναι γραµµική µε ρυθµό ανάλογο της απώλειας πληροφορίας περίπου ϑ στο παρατηρούµενο. ϑ Yπου είναι Πιο συγκεκριµένα για τα βήµατα του ΕΜ αλγόριθµου: Το βήµα Ε βρίσκει την κατανοµή των χαµένων τιµών βασιζόµενο στις γνωστές τιµές των παρατηρούµενων τιµών και στις προσωρινές παραµέτρους, 47

Το βήµα Μ προχωρά στην αντικατάσταση των χαµένων τιµών µε τις εκτιµώµενες τιµές. Ειδικότερα ας υποθέσουµε ότι ο ( t) ϑ είναι η προσωρινή εκτίµηση της παραµέτρου ϑ. Το βήµα Ε του ΕΜ αλγόριθµου βρίσκει την αναµενόµενη loglkehood των συµπληρωµένων τιµών όταν το ϑ είναι ( t) ϑ, ( t ) ( t ) ( ϑ ϑ ) = ( ϑ ) (, ϑ= ϑ ) ms ms, (3.2) Q l y f Y Y dy Το Μ βήµα καθορίζει το ( t ) ϑ + loglkehood την συµπληρωµένων τιµών µεγιστοποιώντας την αναµενόµενη Q ( ( t + ) ( ) ( ) ϑ ϑ t ) Q( ϑ ϑ t ), για όλα τα ϑ (3.22) Ο ΕΜ αλγόριθµός επιλέγεται συνήθως λόγω της κοµψότητας της µεθόδου που ακολουθεί αφού συνδυάζει την µεθοδολογία της στατιστικής άριστα µε την αλγοριθµική εισαγωγή δεδοµένων. Έχει αρχίσει και έχει µεγάλη απήχηση σε διάφορα project και γενικά είναι µία πολλά υποσχόµενη µέθοδος. Ωστόσο ο ΕΜ αλγόριθµός έχει δύο µεγάλα µειονεκτήµατα, ) σε κάποιες περιπτώσεις όπου υπάρχουν µεγάλα τµήµατα µε χαµένες τιµές, είναι πολύ αργός στην σύγκλιση του, 2) σε κάποια προβλήµατα το βήµα M είναι δύσκολο να υπολογιστεί, για παράδειγµα όταν δεν υπάρχει πιο κοντινή µορφή. Eποµένως η θεωρητική ευκολία του δεν συµπιπτει και µε πρακτική ευκολία. Υπάρχουν όµως δύο διαφορετικές προεκτάσεις του ΕΜ που συχνά µπορούν να αποφύγουν αυτά τα προβλήµατα. Ο πρώτος τύπος της προέκτασης διατηρεί την απλότητα της εφαρµογής βασιζόµενος στους υπολογισµούς των συµπληρωµένων δεδοµένων. Αυτοί οι αλγόριθµοι διατηρούν την µονότονη αύξηση του ΕΜ στη lkelhood και τη σταθερή σύγκλιση στο τοπικό µέγιστο. Επειδή αυτοί οι αλγόριθµοι είναι τόσο παρόµοιοι µε τον ΕΜ, τους ονοµάζουµε γενικά «ΕΜτύπου» αλγόριθµους. Μερικοί από τους «ΕΜ-τύπου» αλγόριθµοι είναι οι 48

ECM, ECME, AECM και PX-EM. Ο ECM αντικαθιστά το βήµα Μ του ΕΜ µε δύο ή περισσότερα υπό συνθήκη (στις παραµέτρους) βήµατα µεγιστοποίησης. Ο ECME είναι µία παραλλαγή του ECM, στην οποία το CM βήµα µεγιστοποιεί είτε την loglkehood των συµπληρωµένων δεδοµένων είτε την πραγµατική (actual) loglkehood. Ο AECM είναι µία επέκταση του ECME που επιτρέπει εναλλακτικά CM βήµατα να µεγιστοποιούν διαφορετικά loglkehood συµπληρωµένων δεδοµένων σύµφωνα µε τους διαφορετικούς ορισµούς των χαµένων τιµών. Ο PX-EM είναι διαφορετικός στο ότι επεκτείνει το περιθώριο των παραµέτρων στα οποία παίρνει µέρος περιλαµβάνοντας όσες τιµές είναι γνωστές και εποµένως επιταχύνει τον EM. Ο δεύτερος τύπος προέκτασης του ΕΜ αναµιγνύει τον ΕΜ µε άλλες τεχνικές που µπορούν να έχουν ως αποτέλεσµα αποδοτικούς αλγόριθµους, αλλά τυπικά δεν έχουν εγγυηµένη µονότονη αύξηση στη lkelhood. ιαφορετικές εκδοχές αυτού το δεύτερου τύπου περιλαµβάνουν µετάβαση από τον ΕΜ σε µία Newtonsteppng µέθοδο µετά από κάποιες επαναλήψεις, στον gradent ΕM αλγόριθµο του Lange (9955a) και στην επιταχυνόµενη µέθοδο των Jamshdan και Jennrch (993). Τέλος οι McLachlan και Krshnan (997) παρουσίασαν µία εξαιρετική εργασία σχετικά µε τον ΕΜ αλγόριθµο και τις προεκτάσεις του περιλαµβάνοντας πολύ περισσότερα θεωρητικά αποτελέσµατα και λεπτοµέρειες από όσο θα ασχοληθούµε σε αυτή την εργασία. Εµείς θα ασχοληθούµε περισσότερο µε την εφαρµογή των προαναφερόµενων µεθόδων. 3.6 MULTINOMIAL LOGISTIC REGRESSION (MLR) Μία ακόµα µέθοδος που χρησιµοποιείται ευρέως είναι η Multnomal Logstc Regresson (MLR). Η µέθοδος αυτή χρησιµοποιείται για να δείξει την σχέση µεταξύ µιας δυαδικής, εξάρτηµένης µεταβλητής και ενός συνόλου από k ανεξάρτητες µεταβλητές { } x, x,..., x k, οι οποίες είναι, είτε κατηγορικές είτε 2 αριθµητικές. Καθώς η δυαδική εξαρτηµένη µεταβλητή µπορεί να µας δείξει τη παρουσία ή όχι κάποιου γεγονότος Ε η MLR είναι η έκφραση της παρακάτω συνάρτησης: 49

( ) log k prob E = b + 0 b x prob ( E ), (3.23) = όπου το b τους άγνωστους συντελεστές της logstc παλινδρόµησης ( b 0 είναι η κλίση) καθώς το prob( E ) µας δίνει την πιθανότητα το γεγονός Ε να συµβεί. Η ποσότητα στο αριστερό µέρος της εξίσωσης (3.23) ονοµάζεται logt. Εποµένως το απλό µοντέλο της MLR µπορεί να χρησιµοποιηθεί για πρόβλεψη της πιθανότητας εµφάνισης κάποιου γεγονότος. Το µοντέλο που παρουσιάσαµε παραπάνω µπορεί να γενικευτεί και στην περίπτωση που οι µεταβλητές δεν είναι δυαδικές, αλλά µπορούν να πάρουν πάνω από δύο τιµές. Σε αυτή την περίπτωση αν υποθέσουµε ότι η µεταβλητή µπορεί να πάρει q διαφορετικές τιµές, τότε εµείς χρειαζόµαστε ένα µοντέλο µε q logts, εποµένως έχουµε: prob( category ) k j ( j) ( j) log = b0 + b x prob( category q ), = για j=,..., q (3.24) Στην (3.24) µπορούµε να δούµε ότι µία κατηγορία χρησιµοποιείται σαν αναφορά και ονοµάζεται baselne category. Μετά την εκτίµηση των συντελεστών του µοντέλου στην συνάρτηση (3.24) µε την βοήθεια την µεθόδου maxmum lkelhood µπορούµε αµέσως να προβλέψουµε τα logts και εποµένως και τις πιθανότητες της κάθε µία κατηγορίας. Η τελική µας πρόβλεψη θα είναι η κατηγορία µε την µέγιστη πιθανότητα. Η MLR µπορεί να χρησιµοποιηθεί για εισαγωγή τιµών αν λάβουµε την κατηγορική µεταβλητή που περιέχει χαµένες τιµές ως εξαρτηµένη και ως ανεξάρτητες όλες τις υπόλοιπες. Μία παρόµοια µέθοδος έχει παρουσιαστεί για πρόβλεψη της παραγωγικότητας (Σέντας, Αγγελής 2005). Περισσότερες λεπτοµέρειες πάνω 50

στα µοντέλα µε κατηγορικά δεδοµένα υπάρχουν στις µελέτες των Hosmer και Lemeshow (989). 3.7 PAIRWISE DELETION Μία άλλη µέθοδος της κατηγορίας των Deleton µεθόδων είναι και η Parwse Deleton(PD). Η χρησιµότητα αυτής της µεθόδου προκύπτει από την προσπάθεια µείωσης της απώλειας πληροφορίας που έχουµε κατά την εφαρµογή της Lstwse Deleton µεθόδου. Η PD εξατάζει την κάθε µεταβλητή ξεχωριστά. Έτσι για κάθε µεταβλητή παίρνονται υπόψη οι τιµές που έχουν καταγραφεί για την κάθε παρατήρηση και οι τιµές που λείπουν αγνοούνται. Για παράδειγµα, αν έχουµε ως σκοπό να βρούµε τον µέσο όρο της µεταβλητής X, τότε αυτός θα βρεθεί, αν υπολογιστούν όλες οι καταγεγραµµένες τιµές. Σε αυτήν την περίπτωση, παρατηρήσεις µε καταγεγραµµένες τιµές στην µεταβλητή X θα υπολογιστούν ανεξάρτητα από τα αν λείπουν από τις άλλες µεταβλητές ή όχι. Αξίζει να σηµειωθεί ότι η τεχνική της PD γίνεται LD, όταν όλες οι µεταβλητές χρησιµοποιούνται σε µία συγκεκριµένη ανάλυση. Η παραπάνω µέθοδος αποδίδει πολύ καλά και χωρίς να διαστρεβλώνει τα δεδοµένα, όταν αυτά λείπουν τυχαία. Συγκρίνοντας τις δύο αυτές µεθόδους της κατηγορίας των Deleton µεθόδων φτάνουµε στα εξής συµπεράσµατα: Καταρχήν, γίνεται κατανοητό ότι από την στιγµή που η PD κάνει χρήση όλων των καταγεγραµµένων µεταβλητών, ότι αποδίδει καλύτερα από την LD στην περίπτωση που ο µηχανισµός εµφάνισης των δεδοµένων είναι MCAR και οι συσχετίσεις (correlatons) είναι µικρές. Αυτό επιβεβαιώθηκε και στη µελέτη των Km and Curry. Σε αντίθεση µε κάποιες άλλες µελέτες όπου οι συσχετίσεις (correlatons) είναι µεγάλες η LD αποδίδει πολύ καλύτερα από την PD. Το µεγαλύτερο µειονέκτηµα της PD είναι ότι δηµιουργεί ασυνεπείς πίνακες συνδιασποράς στην περίπτωση όπου πολλές µεταβλητές περιέχουν χαµένες τιµές. Αντίθετα η LD δηµιουργεί πάντα συνεπής πίνακες συνδιασποράς. 5

Τέλος, όπως συµβαίνει και στην LD, όταν το µέγεθος των χαµένων τιµών είναι µεγάλο ή όταν ο µηχανισµός εµφάνισης των χαµένων τιµών δεν είναι τυχαίος, προτείνεται να χρησιµοποιηθούν οι µέθοδοι εισαγωγής τιµών για καλύτερα αποτελέσµατα. 3.8 HOT DECK IMPUTATION Η Hot-Deck Imputaton ανήκει στην υποκατηγορία των mplct µεθόδων εισαγωγής τιµών. Σύµφωνα µε αυτήν την µέθοδο, οι χαµένες τιµές συµπληρώνονται µε τιµές που παίρνονται από τις παρατηρούµενες µεταβλητές του ίδιου συνόλου δεδοµένων. Η επιλογή των τιµών αυτών εξαρτάται από το αν κάποια παρατήρηση περιέχει τη χαµένη τιµή ή όχι. Η ιδιότητα αυτή, της επιλογής των τιµών, είναι αυτή που διαχωρίζει την HDI από την Mean Imputaton. Με σκοπό την ελάττωση της διαστρέβλωσης των περιπτώσεων που δεν έχουν απαντηθεί και επίσης αποβλέποντας στην δηµιουργία ενός πλήρως συµπληρωµένου συνόλου τιµών, η HDI διατηρεί την κατανοµή του συνόλου δεδοµένων σε αντίθεση µε την MI όπου παραµορφώνει την κατανοµή επαναλαµβάνοντας τους µέσους όρους για όλες τις χαµένες τιµές. Η HDI προσπαθεί να διατηρήσει την κατανοµή ακέραια αντικαθιστώντας διαφορετικές παρατηρούµενες τιµές για την κάθε τιµή που απουσιάζει Ο τρόπος που λειτουργεί η HDI είναι ο εξής: Επιλέγει µία παρατήρηση (δωρητής) που ταιριάζει καλύτερα στα χαρακτηριστικά της παρατήρησης που περιέχει τις χαµένες τιµές (πελάτης). Ο δωρητής λοιπόν παρέχει την τιµή που θα εισάγουµε στο πεδίο της χαµένης τιµής του πελάτη. Με αυτήν την µέθοδο έχουν ασχοληθεί πολλοί ερευνητές όπως οι: Ernest (980), Kalton and Ksk (98), Ford (983), Davd (986), Marker, Judkns, Wnglee(2002) και Colledge. Ο τελευταίος µάλιστα αναφέρει στην µελέτη του ότι η HDI φαίνεται να είναι µία πολύ καλή τεχνική για χειρισµό των χαµένων τιµών, αλλά ακόµα χρειάζεται περαιτέρω έρευνα πριν προχωρήσουµε σε ευρεία χρήση της στα προβλήµατα που περιέχουν χαµένες τιµές. 52

3.9 COLD DECK IMPUTATION Η µέθοδος της Cold Deck Imputaton δουλεύει µε τον ίδιο τρόπο όπως και η Hot Deck Imputaton. Η µόνη διαφορά τους έγκειται στο γεγονός ότι η επιλογή του δωρητή γίνεται µε βάση τα αποτελέσµατα προηγούµενων ερευνών. 3.0 SIMILAR RESPONSE PATTERN IMPUTATION Μία άλλη ευρέως χρησιµοποιούµενη µέθοδος είναι η Smlar response Pattern Imputaton. Η µέθοδος αυτή ανήκει στην κατηγορία των samplebased methods, στην κατηγορία των µεθόδων δηλαδή που βασίζονται σε δείγµατα συνόλων δεδοµένων για τη συµπλήρωση των χαµένων τιµών. Η SRPI ακολουθεί την εξής διαδικασία για τη συµπλήρωση των χαµένων τιµών: προσπαθεί να βρει κάποιο έργο παλιότερου λογισµικού και που δεν περιέχει χαµένες τιµές και είναι παρόµοιο µε το εξεταζόµενο. Για τη συµπλήρωση των χαµένων τιµών του εξεταζόµενου έργου λογισµικού, αντιγράφει τις αντίστοιχες τιµές που έχουν τα δεδοµένα στις περιπτώσεις των χαµένων τιµών από το έργο λογισµικού που είχε εξεταστεί παλιότερα. Σαν µέτρο για την οµοιότητα δύο περιπτώσεων δύο ξεχωριστών έργων λογισµικού χρησιµοποιείται το κριτήριο ελαχίστων τετραγώνων (least squares crteron). Το σύνολο των µεταβλητών που χρησιµοποιούνται στον ορισµό αυτού του διαστήµατος ονοµάζονται matchng varables. Η µέθοδος αυτή λοιπόν λειτουργεί ως εξής: Έστω y,..., y p οι µεταβλητές που πρόκειται να εξεταστούν και x,..., x q οι matchng varables. Ως z,..., z q ορίζουµε τις πρότυπες (standard) τιµές των x,..., x q. Επιπλέον ορίζουµε ως ykτην µεταβλητή της οποίας οι χαµένες τιµές πρόκειται να συµπληρωθούν. Ως έργο a ορίζουµε το έργο όπου η περιέχει χαµένες τιµές και οι οποίες έχουν συµπληρωθεί από τις matchng varables x,..., x q. Για να βρούµε λοιπόν όλες τις περιπτώσεις που y k 53

συµπληρώθηκαν από τις matchng varables x,..., x q, ελαχιστοποιούµε τον παρακάτω όρο: n j= ( ) 2 zbj zaj (3.25) Έτσι, προκύπτουν δύο περιπτώσεις: ) Υπάρχει ένα µοναδικό έργο b που ελαχιστοποιεί την παραπάνω εξίσωση. Σε αυτήν την περίπτωση η y ka αντικαθίσταται από την y kb. 2) Υπάρχουν n έργα όπου επαληθεύουν την εξίσωση (3.25). Ορίζουµε λοιπόν τις y -τιµές τους ως y,..., k y kn Σε αυτές τις περιπτώσεις η y ka αντικαθίσταται από τον µέσο όρο των y,...,, k ykn y kmean. Η µέθοδος αυτή της SRPI, σε αντίθεση µε άλλες τεχνικές χειρισµού χαµένων τιµών όπως η ΜΙ, κ.α., λειτουργεί καλά και όταν έχουµε να κάνουµε µε χειρισµό διατεταγµένων (ordnal) µεταβλητών. Παρατηρούµε επίσης ότι ακόµα ένα χαρακτηριστικό της SRPI τεχνικής είναι ότι δεν τοποθετεί στη θέση µιας τιµής που λείπει µία τιµή όπου η απόσταση µεταξύ της matchng τιµής και της περίπτωσης που θέλουµε να συµπληρώσουµε, απέχει πολύ. Μας προστατεύει δηλαδή από το να εισάγουµε κάποιες τιµές που δεν ταιριάζουν στην περίπτωση των δεδοµένων µας. 3. FULL INFORMATION MAXIMUM LIKELIHOOD (FIML) Μία τελευταία τεχνική χειρισµού χαµένων τιµών στην οποία θα αναφερθούµε είναι η Full Informaton Maxmum Lkelhood (FIML). Η FIML είναι µέθοδος που βασίζεται σε µοντέλα (model-based), σε αντίθεση µε µεθόδους που περιγράψαµε πιο πάνω, όπως η SRPI, η οποία βασίζεται σε δείγµατα δοκιµών (samplng-based). Η µέθοδος αυτή βασίζεται στην µεγιστοποίηση του λογαρίθµου της πιθανοφάνειας (lkelhood). Η Maxmum Lkelhood ή ο ML- εκτιµητής, όπως συχνά ονοµάζεται, είναι γνωστός στην βιβλιογραφία για την αποδοτικότητα του και αποτελεί ένα από τα πλέον 54

κατάλληλα στατιστικά εργαλεία στην ανάλυση έργων λογισµικού για τον χειρισµό συνόλων δεδοµένων µε χαµένες τιµές. Η FIML υποθέτει ότι όλα τα δεδοµένα προέρχονται από multvarate normal κατανοµή και µεγιστοποιεί την πιθανοφάνεια (lkelhood) του θεωρητικού µοντέλου που δίνουν τα δεδοµένα τα οποία έχουν συµπληρωµένες όλες τις τιµές τους. Συγκρίνοντας την FIML µε µεθόδους όπως η SRPI και η ΜΙ, βλέπουµε ότι τα αποτελέσµατα της δεν είναι αλλοιωµένα, ακόµα και αν ο µηχανισµός εµφάνισης των χαµένων τιµών δεν είναι τυχαίος. Το µειονέκτηµα ωστόσο των µεθόδων αυτών είναι το γεγονός ότι απαιτούν µεγάλο σύνολο τιµών για να µπορέσουν να εφαρµοστούν σωστά και να έχουν τα κατάλληλα αποτελέσµατα. 55