ΚΕΦΑΛΑΙΟ 1 Ο. 1.1 Εισαγωγή Γενικά για χαµένες τιµές (missing values) στα δεδοµένα

Σχετικά έγγραφα
2. Missing Data mechanisms

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Εισαγωγή στη Χρήση του SPSS for Windows Σελίδα:

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

Διπλωματική εργασία της Στυλιανής Κ. Παπαδάκη

Κεφάλαιο 7. Έλεγχος Υποθέσεων. Ένα παράδειγµα

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

3. Missing Data Techniques (MDTs)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Η ακρίβεια ορίζεται σαν το πηλίκο των ευρεθέντων συναφών εγγράφων προς τα ευρεθέντα έγγραφα. Άρα για τα τρία συστήµατα έχουµε τις εξής τιµές:

Εισαγωγή στη Στατιστική

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 4

Παλαιότερες ασκήσεις

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

6. ΔΙΑΝΥΣΜΑΤΙΚΟΙ ΧΩΡΟΙ ΚΑΙ ΑΝΤΙΣΤΡΟΦΑ ΠΡΟΒΛΗΜΑΤΑ

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ

Περίληψη ιπλωµατικής Εργασίας

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

2. Στοιχεία Πολυδιάστατων Κατανοµών

1.Γ.2 Αποτελέσµατα ΜΕΡΟΣ Γ: Ο ΠΟΛΕΜΟΣ ΣΤΟ ΙΡΑΚ Γ.1 Εισαγωγή...196

ΕΝΟΤΗΤΑ 2 η ΙΑΧΕΙΡΙΣΗ ΡΟΗΣ ΕΡΓΑΣΙΑΣ (WORKFLOW MANAGEMENT) 2.1 Εισαγωγή

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.

Συλλογή,, αποθήκευση, ανανέωση και παρουσίαση στατιστικών δεδοµένων

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Εκτίµηση της ζήτησης. Ανάλυση. Μέθοδοι έρευνας µάρκετινγκ ΚΕΦΑΛΑΙΟ 4

ΣΥΛΛΟΓΗ ΚΑΙ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ Ε ΟΜΕΝΩΝ

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

Εγχειρίδιο SPSS 7. Εισαγωγή δεδοµένων

Ανάκτηση Πληροφορίας

Κεφάλαιο 6 ο. Περιγραφή εδοµένων - Συµπεράσµατα. 6.1 Γενικά. 6.2 Περιγραφή δεδοµένων

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

Είναι το ηλεκτρικό ρεύµα διανυσµατικό µέγεθος;

Στατιστική για Πολιτικούς Μηχανικούς Λυμένες ασκήσεις μέρους Β

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΑΚΑΔΗΜΙΑ ΤΩΝ ΠΟΛΙΤΩΝ


οµή δικτύου ΣΧΗΜΑ 8.1

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

Πρόβληµα 2 (15 µονάδες)

cov(x, Y ) = E[(X E[X]) (Y E[Y ])] cov(x, Y ) = E[X Y ] E[X] E[Y ]

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Ασκησεις - Φυλλαδιο 8

ΙΕΚ ΞΑΝΘΗΣ. Μάθημα : Στατιστική Ι. Υποενότητα : Κωδικοποίηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο ιδάσκων : Π. Τσακαλίδης

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

4. Αναδροµικός τύπος Είναι ο τύπος που συσχετίζει δύο ή περισσότερους γενικούς όρους µιας ακολουθίας

ΚΑΤΑΝΟΗΣΗ ΤΗΣ ΙΑΤΑΞΗΣ ΤΩΝ ΑΡΙΘΜΩΝ ΚΑΙ ΧΡΗΣΗ ΤΗΣ ΑΠΟΛΥΤΗΣ ΤΙΜΗΣ ΣΤΟΝ ΑΞΟΝΑ ΤΩΝ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ ΠΕΡΙΛΗΨΗ. Εισαγωγή

Περιβαλλοντική Στατιστική

Συστήµατα Μη-Γραµµικών Εξισώσεων Μέθοδος Newton-Raphson

Αριθµητική Ανάλυση 1 εκεµβρίου / 43

7. Ταλαντώσεις σε συστήµατα µε πολλούς βαθµούς ελευθερίας

1. Εισαγωγή Ο έλεγχος υποθέσεων αναφέρεται στις ιδιότητες µιας άγνωστης παραµέτρους του πληθυσµού: Ο κατηγορούµενος είναι αθώος

ΚΕΦΑΛΑΙΟ 3 ΜΕΛΕΤΗ ΑΠΟ ΟΣΗΣ ΚΑΙ ΕΠΙΤΥΧΙΑΣ ΗΜΕΡΗΣΙΩΝ ΗΜΟΣΙΩΝ ΚΑΙ Ι ΙΩΤΙΚΩΝ ΛΥΚΕΙΩΝ ΕΙΣΑΓΩΓΗ

Περιγραφική Στατιστική

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

Μάθηµα 1. Κεφάλαιο 1o: Συστήµατα. γ R παριστάνει ευθεία και καλείται γραµµική εξίσωση µε δύο αγνώστους.

7. ΣΥΓΚΡΙΣΗ ΚΑΙ ΣΥΝ ΙΑΣΜΟΣ ΤΩΝ

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ

ΜΕΡΟΣ ΠΡΩΤΟ ΚΕΦΑΛΑΙΟ Ι

Η Μεγάλη Μεγάλη Ύφεση Ύφεση

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες-Χειµερινό Εξάµηνο ιδάσκων : Π. Τσακαλίδης.

ΕΙΔΗ ΕΡΕΥΝΑΣ I: ΠΕΙΡΑΜΑΤΙΚΗ ΕΡΕΥΝΑ & ΠΕΙΡΑΜΑΤΙΚΟΙ ΣΧΕΔΙΑΣΜΟΙ

f x = f a + Df a x a + R1 x, a, x U και από τον ορισµό της 1 h f a h f a h a h h a R h a i i j

ΕΙΣΑΓΩΓΗ. Μη Παραµετρική Στατιστική, Κ. Πετρόπουλος. Τµήµα Μαθηµατικών, Πανεπιστήµιο Πατρών

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΙ ΠΑΤΡΑΣ ΤΕΙ ΠΑΤΡΑΣ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΏΝ ΠΑΙΓΝΙΩΝ- ΠΡΟΓΡΑΜΜΑ GAMBIT

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΘΕΩΡΙΑ ΓΕΝΙΚΗΣ ΙΣΟΡΡΟΠΙΑΣ ΧΡΗΣΕΩΝ ΓΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΗΣ ΚΡΗΤΗΣ

Ανάλυση κατά Συστάδες. Cluster analysis

ΜΕΛΕΤΗ ΣΥΝΑΡΤΗΣΗΣ. Άρτια και περιττή συνάρτηση. Παράδειγµα: Η f ( x) Παράδειγµα: Η. x R και. Αλγεβρα Β Λυκείου Πετσιάς Φ.- Κάτσιος.

ΜΕΡΟΣ Α Κάθε µια από τις παρακάτω φράσεις (1α, 1β, 1γ, 2α κτλ) µπορεί να είναι σωστή ή λανθασµένη. Ποιες είναι σωστές και ποιες όχι;

Ανοικτά και κλειστά σύνολα

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης

(GNU-Linux, FreeBSD, MacOsX, QNX

Γραµµικη Αλγεβρα Ι Επιλυση Επιλεγµενων Ασκησεων Φυλλαδιου 8

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

2. Δυναμικό και χωρητικότητα αγωγού.

Στόχος της ψυχολογικής έρευνας:

Πρόβληµα 2 (12 µονάδες)

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

P (A) = 1/2, P (B) = 1/2, P (C) = 1/9

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2017 ιδάσκων : Π. Τσακαλίδης

Ορισµένοι ερευνητές υποστηρίζουν ότι χρειαζόµαστε µίνιµουµ 30 περιπτώσεις για να προβούµε σε κάποιας µορφής ανάλυσης των δεδοµένων.

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ειγµατοληψία ΜΕΘΟ ΟΛΟΓΙΑ ΤΗΣ ΕΡΕΥΝΑΣ Μέρη της Έρευνας Μέθοδος Πώς ερευνήθηκε το πρόβληµα? Μέθοδος

2.5.1 Χρήση δεξιοτήτων αρχειοθέτησης για τη διατήρηση ενός καθιερωμένου συστήματος

11ο Πανελλήνιο Συνέδριο της ΕΕΦ, Λάρισα 30-31/03, 1-2/04/2006. Πρακτικά Συνεδρίου


Συνεχείς συναρτήσεις πολλών µεταβλητών. ε > υπάρχει ( ) ( )

Ποσοτική & Ποιοτική Ανάλυση εδοµένων Βασικές Έννοιες. Παιδαγωγικό Τµήµα ηµοτικής Εκπαίδευσης ηµοκρίτειο Πανεπιστήµιο Θράκης Αλεξανδρούπολη

Outlook Express-User Instructions.doc 1

Α. 1. Μετρήσεις και Σφάλµατα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

* τη µήτρα. Κεφάλαιο 1o

ΥΠΟΛΟΓΙΣΜΟΣ ΑΝΑΠΤΥΓΜΑΤΟΣ FOURIER ΜΕ ΑΡΙΘΜΗΤΙΚΟ ΤΡΟΠΟ

f x = f a + Df a x a + R1 x, a, x U και από τον ορισµό της 1 h f a h f a h a h h a R h a i i j

ζωγραφίζοντας µε τον υπολογιστή

Transcript:

ΚΕΦΑΛΑΙΟ 1 Ο 1.1 Εισαγωγή Με τον όρο «χαµένες τιµές» (missing values), εννοούµε τιµές που απουσιάζουν σύνολα δεδοµένων, όπως έρευνες, δηµοσκοπήσεις, έργα λογισµικού για διάφορους λόγους. Το πρόβληµα των «χαµένων τιµών» (missing values), είναι ένα από τα πιο συχνά εµφανιζόµενα προβλήµατα που συναντάµε κατά την ανάλυση περιπτώσεων, όπως οι παραπάνω. Πολλές µέθοδοι χειρισµού των missing data έχουν προταθεί κατά καιρούς. Σε επόµενη ενότητα αναφερόµαστε σε κάποιες από τις πιο συχνά χρησιµοποιούµενες. 1.1.1 Γενικά για χαµένες τιµές (missing values) στα δεδοµένα Κατά την συλλογή δεδοµένων που προέρχονται από έρευνες ή δηµοσκοπήσεις, δηµιουργούνται πίνακες, όπου αποθηκεύονται τα αποτελέσµατα των ερευνών. Τα δεδοµένα αυτά µπορούν να έχουν διάφορες µορφές. Μπορεί να είναι αριθµοί (π.χ. ηλικία, εισόδηµα), κατηγορίες δεδοµένων, όπου υπάρχει βαθµωτή αξιολόγηση (π.χ. επίπεδο µόρφωσης) ή µπορεί να έχουν τη µορφή απαντήσεων (π.χ. φύλλο). Όταν οι γραµµές και οι στήλες ενός πίνακα είναι συµπληρωµένες (πράγµα εξαιρετικά σπάνιο και αδύνατο) η έρευνα µας είναι πλήρης και µπορούµε να δούµε τα ακριβή αποτελέσµατά της. Στην αντίθετη περίπτωση, έχουµε ελλιπή δεδοµένα και εδώ είναι που εµφανίζεται το πρόβληµα των χαµένων τιµών. Οι τιµές αυτές µπορεί να µην συµπληρώνονται για διάφορους λόγους. Οι πιο συνηθισµένοι παράγοντες που οδηγούν σε χαµένες τιµές στην περίπτωση που έχουµε συµπλήρωση ερωτηµατολογίων είναι, είτε γιατί δεν 10

υπάρχει χρόνος για τη συµπλήρωση τους είτε γιατί οι ερωτηθέντες δεν καταλαβαίνουν τις ερωτήσεις. Επίσης κάποιοι µπορεί να µην έχουν την επαρκή γνώση για να απαντήσουν στις ερωτήσεις και εποµένως επιλέγουν να τις αφήσουν κενές. Ίσως κάποιοι όλοι να µην επιθυµούν να αποκαλύψουν κάποια συγκεκριµένη πληροφορία που αφορά τους εαυτούς τους, την οποία θεωρούν ότι µπορεί να είναι επιβλαβής ή προσβλητική για τους ίδιους. Για παράδειγµα σε έρευνες στα νοικοκυριά µπορεί να µην επιθυµούν να αναφερθεί το εισόδηµα. Σε έρευνες σε βιοµηχανίες δεδοµένα µπορεί να λείπουν εξαιτίας µηχανικών βλαβών άσχετων µε την πορεία της έρευνας. Σε έρευνες που ζητείται η γνώµη των συµµετεχόντων (π.χ. σε πολιτικές έρευνες) µπορεί κάποιος να µην επιθυµεί να εκφράσει την προτίµηση του σε κάποιον από τους προτεινόµενους υποψήφιους σε σχέση µε κάποιον άλλον. 1.1.2 Χαµένες τιµές στα δεδοµένα κόστους λογισµικού Πολύ συχνά παρατηρούµενο πρόβληµα και στην εκτίµηση κόστους λογισµικού είναι η διαχείριση των χαµένων τιµών (missing values) σε βάσεις δεδοµένων που χρησιµοποιούνται για την ανάπτυξη µοντέλων πρόβλεψης. Η σπουδαιότητα της εκτίµησης κόστους στα έργα λογισµικού ως µία από τις πιο κρίσιµες φάσες τους έχει αναγνωριστεί εδώ και πολύ καιρό. Προσπάθειες για εκτίµηση των προσπαθειών και του χρόνου που απαιτείται για την ανάπτυξη ενός προϊόντος λογισµικού, συνήθως περιλαµβάνει και την κατασκευή ενός ή περισσοτέρων µοντέλων εκτίµησης µε την εισαγωγή στατιστικών µεθόδων σε ιστορικά πακέτα δεδοµένων µε ολοκληρωµένα λογισµικά έργα. Πιο συνηθισµένα, τα µοντέλα κόστους δηµιουργούνται από εφαρµοζόµενες µεθόδους παλινδρόµησης. Γνωρίζοντας το µοντέλο εκτίµησης ενός συγκεκριµένου έργου λογισµικού από τα αρχικά στάδια του κύκλου ανάπτυξης είναι ένα πολύ σηµαντικό βοήθηµα για την µελέτη µας. Η διαχείριση αυτών των εκτιµήσεων κόστους µας δίνει την δυνατότητα να εγκρίνουµε ή να απορρίψουµε κάποια προτεινόµενα έργα ή ακόµα µας βοηθά να διαχειριστούµε την διαδικασία ανάπτυξης ακόµα πιο αποδοτικά. Για παράδειγµα, είναι απαραίτητο ένα 11

τέτοιο µοντέλο, όταν κάποια εταιρία χρειάζεται να προσλάβει κάποιους επιπρόσθετους εργαζόµενους σε έργα ανάπτυξης λογισµικού για να συµµετέχουν σε κάποιο έργο ή σε περιοχές µελέτης που χρειάζονται ένα µεγαλύτερο βαθµό προσπάθειας. Επιπλέον, οι ακριβείς εκτιµήσεις λογισµικού επιτρέπουν σε οργανισµούς να κάνουν περισσότερο ρεαλιστικές προσφορές στα διάφορα συµβόλαια που υπογράφουν. Η εκτίµηση κόστους µοντέλων δεν αναλώνεται µόνο στην πρόβλεψη του τελικού έργου κόστους. Για παράδειγµα, πρόσφατη εργασία στον τοµέα αυτό προχώρησε σε κατασκευή µοντέλου εκτίµησης της προσπάθειας για απόδοση σε µία διαδικασία λογισµικού και στην εκτίµηση της προσπάθειας που χρειάζεται για να λάβει πιστοποίηση ISO 90001. Ένα µεγάλο πρόβληµα στη δηµιουργία τέτοιων µοντέλων προκύπτει από το γεγονός ότι υπάρχουν συνήθως χαµένες τιµές στα «ιστορικά σύνολα». Η απουσία των τιµών των δεδοµένων σε ένα σηµαντικό έργο αποδίδεται σε ένα συνηθισµένο φαινόµενο, το οποίο µπορεί να προκαλέσει παραπλανητικά αποτελέσµατα, όσο αφορά την ακρίβεια του µοντέλου και την ικανότητα του να προβλέπει καταστάσεις. Η αλήθεια είναι ότι οι περισσότερες βάσεις δεδοµένων λογισµικού υποφέρουν από αυτό το πρόβληµα, το οποίο είναι αποτέλεσµα πολλών λόγων σχετιζοµένων µε την πολύ απαιτητική εργασία της συλλογής δεδοµένων. Για την ακρίβεια, η συλλογή δεδοµένων απαιτεί συνέπεια, συνοχή, πείρα, χρόνο, κόστος και µεθοδολογία για την εταιρία. Επίσης, όταν το µοντέλο είναι βασισµένο σε multi-organizational δεδοµένα (δεδοµένα που έχουν παρθεί από διαφορετικούς οργανισµούς), το πρόβληµα των χαµένων τιµών προκαλείται από διαφορετικές µεθόδους όπου οι διάφορες εταιρίες χρησιµοποιούν για να µετρήσουν και να αποθηκεύσουν τα δεδοµένα τους. Επιπλέον, όσο περισσότερες µεταβλητές περιέχονται στο σύνολο των δεδοµένων, τόσο περισσότερες χαµένες τιµές θα εµφανιστούν στο σύνολο αυτό. Είναι σύνηθες φαινόµενο για τα σύνολα δεδοµένων να έχουν πολλές παραµέτρους παραγωγικότητας. Σε τέτοιες περιπτώσεις η πιο διάσηµη και εύκολη µέθοδος για τον χειρισµό των χαµένων τιµών είναι να αγνοήσουµε είτε ολόκληρο το έργο είτε τις µεταβλητές που περιέχουν χαµένες τιµές. Αυτή η τεχνική προκαλεί την 12

απώλεια σηµαντικών πληροφοριών και εποµένως µπορεί να οδηγήσει σε µη ακριβή µοντέλα εκτίµησης έργων λογισµικού. Αυτά τα µειονεκτήµατα είναι σχεδόν πάντα φανερά ιδιαίτερα, αν υπάρχει και κάποιο µοτίβο (pattern) στα χαµένα δεδοµένα π.χ., όταν οι παρατηρήσεις των χαµένων τιµών εξαρτώνται από συγκεκριµένη παρατήρηση των δεδοµένων. Στο παράδειγµα των ψηφοφόρων, που αναφέρθηκε παραπάνω, αν δεν έχουµε την σαφή απάντηση από τον συµµετέχοντα στην έρευνα, θα αγνοήσουµε όλες τις απαντήσεις του και θα προχωρήσουµε στον επόµενο συµµετέχονταπερίπτωση. Οι περισσότεροι θυµόµαστε την περίπτωση µε τα ανακριβή αποτελέσµατα των exit-poles στις βουλευτικές εκλογές λίγα χρόνια πριν. Για να το αντιµετωπίσουµε αυτό, θα µπορούσαµε να συµπεριλάβουµε στο ερωτηµατολόγιο επιλογές και του τύπου «όχι προτίµηση» ή «δεν γνωρίζω-δεν απαντώ». Στην αντίθετη περίπτωση, θα µπορούσαµε να χρησιµοποιήσουµε µία από τις µεθόδους συµπλήρωσης των δεδοµένων που λείπουν. Οι µέθοδοι αυτές απευθύνονται κυρίως σε αριθµητικά δεδοµένα και παράγουν συνεχώς εκτιµήσεις. Το ολοκληρωµένο σύνολο δεδοµένων που προκύπτει από µία τέτοια διαδικασία έπειτα αναλύεται από πρότυπες (standard) µεθόδους στατιστικής ανάλυσης, για παράδειγµα η ανάλυση παλινδρόµησης (regression analysis). Αυτές οι τεχνικές είναι ευρέως γνωστές ως µέθοδοι εισαγωγής (imputation methods). Το πρόβληµα είναι ότι περισσότερες από τις πιο γνωστές µεθόδους εισαγωγής παράγουν γενικά εκτιµήσεις συνεχών τιµών, πράγµα που δεν είναι ρεαλιστικό στην περίπτωση που αντικαθιστούν µεταβλητές που είναι κατηγορικές. Από την στιγµή που η πλειοψηφία των µεταβλητών στα δεδοµένα λογισµικού είναι κατηγορικές τιµές µε χαµένα δεδοµένα, είναι λογικό να χρησιµοποιούµε µία µέθοδο εισαγωγής δεδοµένων που να παράγει κατηγορικές τιµές, έτσι ώστε να συµπληρώνει τα ανολοκλήρωτα σύνολα δεδοµένων και έπειτα να τα χρησιµοποιεί ως µοντέλο πρόβλεψης. Το να διαλέξουµε όµως την σωστή µέθοδο χειρισµού των χαµένων τιµών είναι πολύ δύσκολο και µπορεί να αποβεί καταστροφικό για τη µελέτη µας. Αυτό συµβαίνει εξαιτίας της διασποράς των χαµένων τιµών ανάµεσα στα δεδοµένα. Ιδιαίτερα δύσκολο είναι να εκτιµήσουµε το µηχανισµό µε τον οποίο 13

λείπουν οι τιµές σε µικρότερα πακέτα δεδοµένων λόγω του ότι δεν µπορούµε να κρίνουµε σωστά εξαιτίας του µικρού µεγέθους του δείγµατος. 1.2 Στην παρούσα εργασία Εµείς προσπαθήσαµε να εφαρµόσουµε κάποιες συγκεκριµένες µεθόδους χειρισµού χαµένων τιµών σε διάφορα σύνολα δεδοµένων, για να βρούµε ποια µας δίνει ικανοποιητικότερα αποτελέσµατα. Τα δεδοµένα που χρησιµοποιούµε για τα πειράµατα και τις συγκρίσεις προέρχονται από την International Software Benchmarking Standards Group (ISBSG) και πιο συγκεκριµένα από την έκδοση ISBSG7. Στη συνέχεια αυτού του κεφαλαίου, παραθέτουµε κάποια από τα πιο συχνά µοτίβα εµφάνισης χαµένων τιµών. Γνωρίζοντας ποιο µοτίβο υπάρχει κάθε φορά, µπορούµε να επιλέξουν την τεχνική που θα µας δώσει πιο αποδοτικά αποτελέσµατα. Στο επόµενο κεφάλαιο περιγράφουµε κάποια από τους βασικούς µηχανισµούς δηµιουργίας χαµένων τιµών (Missing Data Mechanisms). Στο τρίτο κεφάλαιο παραθέτουµε τις τεχνικές που χρησιµοποιήσαµε στην έρευνα µας (Listwise Deletion (LD), Mean Imputation (MI), Expectation Maximization (EM), Regression Imputation (RI)) καθώς και κάποιες άλλες ενδιαφέρουσες τεχνικές που χρησιµοποιήθηκαν κατά καιρούς σε διάφορες µελέτες. Αυτές είναι οι: pairwise deletion (όπου µαζί µε την LD είναι τεχνικές της κατηγορίας των Deletion Methods), multinomial logistic regression (MLR), hot deck imputation (HDI), cold deck imputation(cdi), similar response pattern imputation (SRPI), full information maximum likelihood (FIML). Στο τέταρτο κεφάλαιο αναφερόµαστε σε κάποιες εργασίες που έχουν γραφτεί σχετικά µε το πρόβληµα των χαµένων τιµών. Στο πρακτικό κοµµάτι, περιγράφουµε τις διαδικασίες του SPSS που χρησιµοποιήσαµε (5 ο κεφάλαιο), ενώ στο επόµενο περιγράφουµε την διαδικασία που ακολουθήσαµε όταν εφαρµόσαµε σε ένα υποσύνολο έργων λογισµικού της ISBSG7 τις τέσσερεις µεθόδους: Listwise Deletion (LD), Mean Imputation (MI), Expectation Maximization (EM) και Regression Imputation 14

(RI) και τις συγκρίναµε τα αποτελέσµατα τους για να δούµε ποια από όλες δίνει τα καλύτερα. 1.3 Μοτίβα εµφάνισης χαµένων τιµών (Missing-Data Patterns) Πολλές φορές βρίσκουµε εξαιρετικά χρήσιµο να ξεχωρίζουµε τα διαφορετικά µοτίβα µε τα οποία εµφανίζονται οι χαµένες τιµές στα διάφορα σύνολα δεδοµένων. Τα µοτίβα αυτά περιγράφουν ποιες από τις τιµές παρατηρούνται στον πίνακα δεδοµένων και ποιες από αυτές λείπουν. Επίσης απεικονίζουν και το µηχανισµό ή τους µηχανισµούς µερικές φορές των χαµένων τιµών, ο οποίος σχετίζεται µε την σχέση µεταξύ της απουσίας µερικών τιµών και των τιµών που παίρνουν οι άλλες µεταβλητές στον πίνακα δεδοµένων. Κάποιες µέθοδοι ανάλυσης χρησιµοποιούνται µόνο όταν παρατηρούνται συγκεκριµένα µοτίβα απουσίας χαµένων τιµών. Άλλες µέθοδοι σχετίζονται περισσότερο µε γενικότερα µοτίβα χαµένων τιµών. Αυτές οι µέθοδοι όµως περιλαµβάνουν περισσότερο προγραµµατισµό για την επίλυση τους, από ότι αυτές που είναι σχεδιασµένες για συγκεκριµένα µοτίβα. Έτσι και αλλιώς είναι ιδιαίτερα χρήσιµο να κατατάσσουµε τα δεδοµένα µας σε στήλες και γραµµές σύµφωνα µε κάποιο µοτίβο χαµένων τιµών για να διαπιστώσουµε αν αυτό το µοτίβο όντως υφίσταται σε αυτή την περίπτωση. Σε πολλές περιπτώσεις µας είναι ιδιαίτερα χρήσιµη αυτή η γνώση, γιατί µπορούµε να επιλέξουµε µία πιο κατάλληλη τεχνική ανάλυσης των δεδοµένων, που θα προβεί σε ποιο έγκυρα αποτελέσµατα από ότι θα είχε µία άλλη τεχνική που τα αποτελέσµατα της επηρεάζονται από κάποιο µοτίβο χαµένων τιµών. Έτσι θεωρούµε ότι: έστω Y = ( y ij ) δηλώνει ένα ορθογώνιο σύνολο δεδοµένων χωρίς χαµένες τιµές, µε την i-οστη γραµµή yi = ( yi1,..., yik ) όπου y ij είναι η τιµή της µεταβλητής Y i την φορά j. Όταν έχουµε να κάνουµε µε 15

χαµένα δεδοµένα, ορίζουµε τον πίνακα δείκτη χαµένων τιµών: M = ( m ij ), έτσι ώστε m ij = 1, όταν το y ij λείπει και m ij = 0, όταν το y ij είναι παρόν. Ο πίνακας M τότε καθορίζει το µοτίβο µε το οποίο λείπουν οι χαµένες τιµές. Όπως προαναφέρθηκε, κάποιες µέθοδοι που χειρίζονται χαµένα δεδοµένα χρησιµοποιούνται µόνο όταν υφίσταται ένα συγκεκριµένο µοτίβο χαµένων τιµών, ενώ άλλες µπορούν να εφαρµοστούν όταν οποιοδήποτε µοτίβο υπάρχει. Παρακάτω παραθέτουµε µερικά από τα µοτίβα που συναντάµε πιο συχνά κατά της επεξεργασία δεδοµένων µε χαµένες τιµές. 1.3.1 Μοτίβο UN (Univariate Nonresposnse Missing Data Pattern) Ένα από τα πιο συνηθισµένα µοτίβα που συναντούµε κατά την µελέτη των χαµένων τιµών, είναι αυτό του univariate nonresponse. Σε αυτό το µοντέλο η απώλεια πληροφοριών παρατηρείται σε µία µόνο µεταβλητή. Έστω ότι έχουµε πέντε µεταβλητές, που αφορούν σε διαφορετικά πεδία Y1, Y2, Y3, Y4και Y 5. Αν οι τέσσερεις από αυτές τις µεταβλητές είναι πλήρως συµπληρωµένες, π.χ. οι Y1, Y2, Y3, Y 4 και µόνο η Y 5 είναι ελλιπώς συµπληρωµένη, ακολουθείται το παραπάνω µοτίβο. Ένα σχεδιάγραµµα αυτής της περίπτωσης δείχνει και το σχήµα 1.1. σχήµα 1.1 Ένα από τα προβλήµατα ασυµπλήρωτων δεδοµένων, που προσελκύει την προσοχή µας συστηµατικά στην ιστορία της στατιστικής, είναι 16

το παραπάνω µοτίβο εµφάνισης των χαµένων τιµών σε σχεδιασµένα πειράµατα. Μπορούµε να φανταστούµε ως παράδειγµα αυτής της περίπτωσης τα πειραµάτα που έχουν ως αντικείµενό τους τις δοκιµές σε γεωργικές εφαρµογές, όπου σε αυτές τις περιπτώσεις τους δίνεται ο χαρακτηρισµός του missing-plot προβλήµατος. Έτσι προκαλεί ενδιαφέρον η σχέση µεταξύ της ανεξάρτητης µεταβλητής Y k, η οποία έστω ότι αντιπροσωπεύει το χωράφι, όπου καλλιεργείται µία σοδειά, µε ένα σύνολο από µεταβλητές Y1,..., Yk 1, που αντιπροσωπεύουν άλλους παράγοντες, όπως τύπος εδάφους, θερµοκρασία κ.τ.λ., όλες όµως είναι πλήρως παρακολουθήσιµες. Έτσι, όπως συνήθως συµβαίνει στην πραγµατικότητα, κάποιες φορές τα αποτελέσµατα κάποιων τµηµάτων των πειραµάτων λείπουν, είτε γιατί δεν αναπτύχθηκαν οι σπόροι (στο παράδειγµα µας) είτε γιατί κάποια δεδοµένα δεν συλλέχθηκαν σωστά. Στην περίπτωση που έχουµε ελλιπή δεδοµένα µόνο στο ένα πεδίο, οι διάφορες τεχνικές που χρησιµοποιούµε στη µελέτη των χαµένων δεδοµένων, προσπαθούν να συµπληρώσουν τις χαµένες τιµές στην µεταβλητή από όπου απουσιάζουν έτσι ώστε να υπάρχει κάποια ισορροπία στην µελέτη των πειραµάτων. 1.3.2 Multivariate Two Missing-Data Patterns Ένα άλλο επίσης συνηθισµένο µοτίβο που παρατηρείται κατά τη µελέτη µας είναι η περίπτωση όπου η µοναδική ασυµπλήρωτη µεταβλητή Ykτης περίπτωσης του µοτίβου UN (Univariate Nonresposnse Pattern), έχει αντικατασταθεί από ένα σύνολο ασυµπλήρωτων µεταβλητών Y,..., 1 Y J+ K. Στην περίπτωση αυτή κάποιες µεταβλητές είναι πλήρως συµπληρωµένες ενώ κάποιες άλλες έχουν χαµένες τιµές στα ίδια πεδία τιµών. Στο σχήµα 1.2, θέτοντας J = 2 και K = 5παρατηρούµε το σχετικό µοτίβο: 17

σχήµα 1.2 Χαρακτηριστικό παράδειγµα αυτής της περίπτωσης είναι η συµπλήρωση ερωτηµατολογίων. Πολύ συχνά κάποιο υποσύνολο των ερωτηθέντων αφήνουν ασυµπλήρωτα µερικά πεδία στα διάφορα ερωτηµατολόγια. Αυτό συµβαίνει για διάφορους λόγους, προσωπικούς, οικονοµικούς κ.τ.λ.. 1.3.3 Μονότονο Μοτίβο εµφάνισης χαµένων τιµών (Monotone Missing Data Pattern) Ακόµα ένα µοτίβο που συναντάµε συχνά στην περίπτωση των χαµένων τιµών είναι το µονότονο µοτίβο (monotone missing data pattern). Σε αυτή την περίπτωση οι µεταβλητές είναι οργανωµένες µε τέτοιο τρόπο έτσι ώστε όλα τα Y,..., J+ 1 YK λείπουν για όλες τις περιπτώσεις όπου το Y j απουσιάζει, για κάθε J = 1,..., K 1 Βλέποντας το παρακάτω σχήµα (σχήµα 1.3), το διαπιστώνουµε για K = 5. εικόνα 1.3 18

Οι ερευνητές θεωρούν ως πιο χαρακτηριστικό παράδειγµα αυτής της περίπτωσης το παράδειγµα της σταδιακής µείωσης ανθρώπινου δυναµικού (είτε αυτό αφορά σπουδαστές είτε εργαζόµενους) σε γεωγραφικό πλάτος. Σε αυτές τις περιπτώσεις ένα από τα πιο συνηθισµένα προβλήµατα αποτελεί το γεγονός ότι κάποια από τα θέµατα της έρευνας παρατώνται πριν το τέλος της µελέτης. Για παράδειγµα, σε µελέτες που αφορούν συµβούλια ανθρώπων (ένορκων, εταιριών, κ.τ.λ.) κάποια µέλη του συµβουλίου µερικές φορές εγκαταλείπουν λόγω π.χ. αλλαγής κατοικίας που είναι απρόσιτη στους ερευνητές, είτε λόγω υγείας, π.χ. εξαιτίας παρενεργειών από φάρµακα, είτε λόγω ανάρρωσης από κάποια ασθένεια. Στην πράξη το µοτίβο εµφάνισης των χαµένων τιµών µε αυτή την µορφή σπάνια ακολουθεί αυστηρά το monotone pattern αλλά συνήθως συγκλίνει σε αυτό. Επιπλέον στα περισσότερα παραδείγµατα η δηµιουργία του monotone missing data pattern προκαλεί µεγάλη απώλεια σηµαντικών πληροφοριών. 1.3.4 Γενικό µοτίβο εµφάνισης χαµένων τιµών (General Missing Data Pattern) Πολλοί αναλυτές ερευνών αποκαλούν τις χαµένες τιµές σε κάποια συγκεκριµένα έργα «αντικείµενα που δεν απαντήθηκαν». Αυτές οι τιµές συνήθως βρίσκονται σε ακατάστατη µορφή µέσα στο σύνολο δεδοµένων παρόµοια µε την κατανοµή που βλέπουµε στο σχήµα 1.4: σχήµα 1.4 19

Αυτή η περίπτωση της απουσίας δεδοµένων συνήθως αντιµετωπίζεται µε διάφορες µεθόδους εισαγωγής τιµών. Γενικά είναι δυσκολότερο να χειριστούµε ένα σύνολο δεδοµένων που περιέχει αυτό το µοτίβο εµφάνισης των χαµένων τιµών από ότι θα µπορούσαµε να χειριστούµε κάποια από τα παραπάνω µοτίβα, όπως το monotone missing data pattern. 1.3.5 File Matching Missing Data Pattern Στις περιπτώσεις, όπου έχουµε να κάνουµε µε χειρισµό µεγάλου όγκου δεδοµένων, η πιθανότητα του να µην µπορούν να παρατηρηθούν οι τιµές των µεταβλητών από δύο διαφορετικές µελέτες µαζί, υπάρχει σε πιο έντονο βαθµό. Όταν συµβαίνει αυτό, είναι πολύ σηµαντικό να είµαστε προσεχτικοί στο πρόβληµα που µας δίνεται αφού υπάρχει η πιθανότητα κάποιες παράµετροι, που έχουν να κάνουν µε τη σχέση µεταξύ κάποιων από των µεταβλητών, να µην εκτιµώνται από τα δεδοµένα και οι προσπάθειες µας να τα εκτιµήσουµε µπορεί να οδηγήσει σε παραπλανητικά αποτελέσµατα. Η εικόνα 1.5 δείχνει µία ακραία περίπτωση αυτού το προβλήµατος που προκύπτει από το συνδυασµό δεδοµένων από δύο διαφορετικές πηγές. σχήµα 1.5 Σε αυτό το µοτίβο εµφάνισης των χαµένων τιµών η µεταβλητή Y 1 παρουσιάζει ένα σύνολο δεδοµένων το οποίο είναι κοινό και στις δύο πηγές 20

που εξετάζονται ενώ είναι και πλήρως παρατηρούµενες οι τιµές της. Η µεταβλητή Y 2 απεικονίζει το σύνολο δεδοµένων, που έχουν παρθεί από την πρώτη µελέτη αλλά δεν υπάρχουν στην δεύτερη και η µεταβλητή Y 3 απεικονίζει τα δεδοµένα που πάρθηκαν από την δεύτερη µελέτη, αλλά δεν υπάρχουν στην πρώτη. Προφανώς δεν υπάρχει κάποια πληροφορία σε αυτό το µοτίβο δεδοµένων σχετικά µε την µερική σχέση των δύο µεταβλητών Y 2 και Y 3 που δίνεται από την Y 1. Στην πράξη η ανάλυση των δεδοµένων που ακολουθούν αυτό το µοτίβο, τυπικά δηµιουργεί την εντύπωση ότι αυτή η µερική σχέση είναι µηδενική. 1.3.6 Factor Analysis Missing Data Pattern Σε κάποιες περιπτώσεις µας είναι χρήσιµο να θεωρούµε κάποια προβλήµατα που περιέχουν µη παρατηρήσιµες, «κρυµµένες» (latent), µεταβλητές σαν προβλήµατα χαµένων τιµών, όπου οι «κρυµµένες» µεταβλητές απουσιάζουν εντελώς και έπειτα παίρνοντας ιδέες από την θεωρία των χαµένων τιµών να εκτιµούµε τις παραµέτρους. Αν λάβουµε υπόψη µας, για παράδειγµα στο σχήµα 1.6 θα δούµε ότι η X παριστάνει το σύνολο των κρυµµένων δεδοµένων που λείπουν εντελώς και η Y παριστάνει το σύνολο των µεταβλητών που είναι πλήρως παρατηρήσιµες. Η factor analysis µπορεί να θεωρηθεί ως µία ανάλυση της Y επάνω στην X. Συγκεκριµένες µορφές αυτού του µοτίβου εµφάνισης τιµών υποθέτουν την ανεξαρτησία των µερών του Y που µας δίνουν X. 21

σχήµα 1.6 Κάποια εκτίµηση µπορεί να γίνει, αν χειριστούµε τις τιµές του πεδίου X σαν χαµένες τιµές. Εάν τιµές του πεδίου Y λείπουν, ακολουθώντας επίσης ένα ανοργάνωτο µοτίβο, τότε οι εκτιµήσεις που µπορούν να αναπτυχθούν θα χειρίζονται ταυτόχρονα και τις τιµές του πεδίου X και τις τιµές του πεδίου Y σαν χαµένες τιµές. Στην συνέχεια, στο δεύτερο κεφαλαίο, θα προχωρήσουµε στην περιγραφή των µηχανισµών που οδηγούν σε χαµένες τιµές και των τεχνικών που αντιµετωπίζουµε τα προβλήµατα χαµένων τιµών. 22