ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών ΧΡΗΣΤΟΣ ΧΑΤΖΗΝΑΚΟΣ Πτυχίο Μαθηματικών Αλγόριθμοι Ανίχνευσης Εκτοπων παρατηρήσεων (Outliers) στην Ανθεκτική (Robust) Εκτίμηση Συνδιακύμανσης και Παλινδρόμησης ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΘΕΣΣΑΛΟΝΙΚΗ, 2014
ΧΡΗΣΤΟΣ ΧΑΤΖΗΝΑΚΟΣ Αλγόριθμοι Ανίχνευσης Εκτοπων παρατηρήσεων (Outliers) στην Ανθεκτική (Robust) Εκτίμηση Συνδιακύμανσης και Παλινδρόμησης ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ Παραδόθηκε στον Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών, Πολυτεχνική Σχολή Ημερομηνία προφορικής εξέτασης: Νοέμβριος, 2014 Συμβουλευτική επιτροπή Αναπληρωτής Καθηγητής Γ. Ζιούτας, Επιβλέπων καθηγητής Ομότιμος Καθηγητής Κ. Τσούρος, Μέλος τριμελούς επιτροπής Επίκουρος Καθηγητής Σ. Κορτεσης, Μέλος τριμελούς επιτροπής
ς ΧΡΗΣΤΟΣ ΧΑΤΖΗΝΑΚΟΣ ς Α.Π.Θ. Αλγόριθμοι Ανίχνευσης Εκτοπων παρατηρήσεων (Outliers) στην Ανθεκτική (Robust) Εκτίμηση Συνδιακύμανσης και Παλινδρόμησης ISBN Η έγκριση της παρούσης διδακτορικής διατριβής από το Τμήμα Ηλεκτρολόγων Μηχανικών & Μηχανικών Υπολογιστών της Πολυτεχνικής Σχολής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης δεν υποδηλώνει αποδοχή των γνωμών του συγγραφέως (Ν. 5343/1932, άρθρο 202, παρ. 2).
ΕΥΧΑΡΙΣΤΙΕΣ Τελειώνοντας τη συγγραφή αυτής της διατριβής θα ήθελα να ευχαριστήσω τους ανθρώπους που διέθεσαν τη γνώση, την εμπειρία και το χρόνο τους, συντελώντας έτσι στην ολοκλήρωση της. Θέλω πραγματικά να ευχαριστήσω εκ βαθέων τον επιβλέποντα αυτής της διδακτορικής διατριβής αναπληρωτή καθηγητή Γεώργιο Ζιούτα για την αδιάλειπτη επιστημονική στήριξη τόσο κατά την διεξαγωγή της έρευνας όσο και κατά την διαμόρφωση, με βάση τα ερευνητικά δεδομένα, των δημοσιευμένων ή υπό δημοσίευση εργασιών καθώς και της παρούσας. Ευχαριστώ τα μέλη της συμβουλευτικής μου επιτροπής επίκουρο καθηγητή Σταυρο Κορτέση και τον ομότιμο καθηγητή Κωνσταντίνο-Κλαύδιο Τσούρο για τις εποικοδομητικές παρατηρήσεις και την υποστήριξή τους. Θέλω να εκφράσω τις ειλικρινείς μου ευχαριστίες στους καθηγητές, στο προσωπικό και στους συνεργάτες του πρώην Γενικού Τμήματος της Πολυτεχνικής Σχολής του Α.Π.Θ. που βοήθησαν με τον τρόπο τους στην ολοκλήρωση της διατριβής αυτής. Επίσης θέλω να ευχαριστήσω τον Θεόδωρο Γκεβετζέ για την πολύτιμη βοήθειά του σε τεχνικά θέματα. Τέλος, ευχαριστώ μέσα από την καρδιά μου τους γονείς μου και την γυναίκα μου για την υπομονή που επέδειξαν και την απόλυτη συμπαράσταση και στήριξη που μου προσέφεραν. Χρήστος Ν. Χατζηνάκος Θεσσαλονίκη, Νοέμβριος 2014
Κάνε πάντα όσο μπορείς το καλό. Προ πάντων αγάπα την Ελευθερία. Και ένα θρόνο αν σου δώσουν ακόμα, ποτέ μην προδώσεις την αλήθεια. Μπετόβεν
Περιεχόμενα 1 Εισαγωγή Στην Ανθεκτική Στατιστική 1 1.1 Γενικά............................... 1 1.1.1 Κριτήρια Ανθεκτικότητας................. 3 1.2 Προβλήματα Θέσης και Κλίμακας................ 9 1.3 Αλγόριθμοι Ανθεκτικής Στατιστικής............... 11 1.3.1 Ανθεκτική Εκτίμηση Θέσης (μέση τιμή, διάμεσος)... 11 1.3.2 Ανθεκτική Εκτίμηση Συνδιακύμανσης.......... 12 1.3.3 Ανθεκτική Εκτίμηση Παλινδρόμησης........... 13 1.4 Ανθεκτική Διαδικασία με Μαθηματικό Προγραμματισμό.... 16 1.5 Νέοι Αλγόριθμοι......................... 16 1.5.1 Ανθεκτική Εκτίμηση Θέσης (μέση τιμή, διάμεσος)... 17 1.5.2 Ανθεκτική Εκτίμηση Συνδιακύμανσης.......... 17 1.5.3 Ανθεκτική Εκτίμηση Παλινδρόμησης........... 18 1.6 Συνεισφορά Διατριβής...................... 19 1.7 Δομή Διατριβής.......................... 20 2 Ανθεκτική Εκτίμηση Θέσης 23 2.1 Γενικά............................... 23 2.2 LTAD Εκτιμητής......................... 24 2.2.1 LTAD........................... 24 2.3 Νέος Αλγόριθμος για την Εκτίμηση των Ελάχιστων Αποκομμένων Απολύτων Αποκλίσεων χρησιμοποιώντας Μαθηματικό Προγραμματισμό............................ 25 2.3.1 Αριθμητική Μέθοδος για την λύση του LTAD προβλήματος........................... 26 2.4 Λύνοντας το Μοντέλο LP-LTAD πιο Αποδοτικά........ 29 2.5 Παράδειγμα-Αποτελέσματα Προσομοίωσης............ 33 2.5.1 Ιδιότητες του LP-LTAD (Ανθεκτικότητα και Αποδοτικότητα).......................... 33 2.5.2 Παράδειγμα........................ 37 2.5.3 Αποτελέσματα Προσομοίωσης.............. 37 2.6 Συμπεράσματα........................... 40 iii
3 Εντοπισμός Εκτοπων και Ανθεκτικός Πίνακας Συνδιακύμανσης 45 3.1 Γενικά............................... 45 3.2 Ορίζουσα Ελάχιστου Πίνακα Συνδιακύμανσης Minimum Covariance Determinant (MCD)................... 48 3.3 Ο Αλγόριθμος του FastMCD................... 50 3.4 OGK................................ 52 3.5 Αιτιοκρατικός Αλγόριθμος του MCD.............. 53 3.5.1 Αρχικές Εκτιμήσεις Διασποράς.............. 54 3.6 Ο Εκτιμητής SD.......................... 55 3.7 Ο Εκτιμητής PCOut....................... 57 3.8 Νέος Εκτιμητής Ελάχιστων Αποκομμένων Ευκλείδειων Αποκλίσεων LTED............................ 62 3.8.1 Εντοπισμός των Εκτοπων Θέσης............ 63 3.8.2 Ανθεκτική Πολυδιάστατη Εκτίμηση Θέσης LTED... 65 3.8.3 Εντοπισμός Εκτοπων Διασποράς............ 69 3.8.4 Αποτελέσματα Προσομοίωσης.............. 75 3.8.5 Πραγματικά δεδομένα................... 77 3.8.6 Ισομεταβλητότητα..................... 79 3.8.7 Υπολογιστικός Χρόνος.................. 81 3.8.8 Συμπεράσματα....................... 81 4 Εκτιμητές Παλινδρόμησης Υψηλού Σημείου Κατάρρευσης 83 4.1 Γενικά............................... 83 4.2 Οι Εκτιμητές Υψηλού Σημείου Κατάρευσης LTS, MM..... 84 4.2.1 Ο Εκτιμητής LTS..................... 85 4.2.2 Οι ΜΜ-Εκτιμητές..................... 86 4.3 Ο PTS Εκτιμητής......................... 87 4.3.1 Υπολογισμός του PTS.................. 89 4.4 LTED Ανθεκτική Μοχλότητα h i και ο Εκτιμητής PTS-LTED. 91 4.5 Monte Carlo Αποτελέσματα................... 92 4.6 Συμπεράσματα........................... 94 5 LTAD-Παλινδρόμηση 99 5.1 Γενικά............................... 99 5.2 LTAD Παλινδρόμηση....................... 100 5.2.1 Νέα Αποκομμένη Διαδικασία για το LTAD....... 100 5.2.2 Weighted Least Absolute Deviation (WLAD) Παλινδρόμηση.......................... 102 5.3 Αποτελέσματα Προσομοίωσης.................. 104 5.3.1 Αποτέλεσμα Προσομοίωσης για τους Εκτιμητές LP-LAD, LP-WLAD........................ 104 5.3.2 Monte Carlo Αποτελέσματα για το LP-WLTAD.... 105
6 Συμπεράσματα 119 7 Summary for PhD thesis with title: Algorithms for Detecting Outliers in Robust Location, Covariance and Regression Estimation 121 7.1 Introduction............................ 121 7.2 Proposed Algorithms-Estimators................ 122 7.2.1 Robust Location Estimate (mean, median)...... 122 7.2.2 Robust Covariance Estimate.............. 123 7.2.3 Robust Regression Estimate............... 123 7.3 Conclusions............................ 124
Κατάλογος Σχημάτων 2.1 Σχεδίαση της ασυμπτωτικής διακύμανσης σε κανονική κατανομή N(0, 1)............................... 36 3.1 Βιοχημικά δεδομένα........................ 47 3.2 Γραφική απεικόνιση για τα Stars δεδομένα του παραδείγματος. 73 3.3 Γραφική απεικόνιση διασποράς του συνόλου δεδομένων για n=100, n out =20 και p = 2......................... 74 3.4 MSE αποτελέσματα 100 επαναλήψεων, ρ=0.99, n=100, n out =20 και p=2.............................. 74 3.5 MSE αποτελέσματα 100 επαναλήψεων, ρ=0.7, n = 100, n out =20 και p=2.............................. 75 5.1 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. Οχι έκτοπα............. 106 5.2 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. 10% έκτοπα, όχι σημεία μόχλευσης. 107 5.3 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. 20% έκτοπα, όχι σημεία μόχλευσης. 108 5.4 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. 10% έκτοπα σε σημεία μόχλευσης. 109 5.5 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. 20% έκτοπα σε σημεία μόχλευσης. 110 5.6 Αποτελέσματα προσομοίωσης για n=40 παρατηρήσεις και δυο προγνωστικούς παράγοντες. 20% μεγάλα έκτοπα σε σημεία μόχλευσης............................... 111 5.7 Αποτελέσματα προσομοίωσησς για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. Οχι έκτοπα........... 112 5.8 Αποτελέσματα προσομοίωσης για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. 10% έκτοπα, όχι σημεία μόχλευσης. 113 5.9 Αποτελέσματα προσομοίωσης για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. 20% έκτοπα, όχι σημεία μόχλευσης. 114 5.10 Αποτελέσματα προσομοίωσης για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. 10% έκτοπα σε σημεία μόχλευσης. 115 vii
5.11 Αποτελέσματα προσομοίωσης για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. 20% έκτοπα σε σημεία μόχλευσης. 116 5.12 Αποτελέσματα προσομοίωσης για n = 100 παρατηρήσεις και έξι προγνωστικούς παράγοντες. 20% μεγάλα έκτοπα σε σημεία μόχλευσης.............................. 117
Κατάλογος Πινάκων 2.1 Εκτίμηση διαμέσου για σύνολο δεδομένων κανονικής κατανομής, N(0, 1)............................... 34 2.2 Εκτίμηση θέσης για το σύνολο δεδομένων του Forbes..... 37 2.3 MSE τοπικών εκτιμήσεων, n = 50, p = 1, 2, 3, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 )................. 39 2.4 MSE τοπικών εκτιμήσεων, n = 50, p = 1, 2, 3, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 )................. 40 2.5 MSE τοπικών εκτιμήσεων, n = 100, p = 1, 3, 5, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 )................. 40 2.6 MSE τοπικών εκτιμήσεων, n = 50, p = 2, 3, συσχέτιση ρ=0.7, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 ).......... 41 2.7 MSE τοπικών εκτιμήσεων, n = 50, p = 2, 3, συσχέτιση ρ=0.7, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 ).......... 41 2.8 MSE τοπικών εκτιμήσεων, n = 100, p = 3, 5, συσχέτιση ρ=0.7, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 ).......... 41 2.9 MSE τοπικών εκτιμήσεων, n = 50, p = 1, 3, 5, μόλυνση δεδομένων με N(µ = 0.75, σ 2 = 0.5)................. 42 2.10 MSE τοπικών εκτιμήσεων, n = 100, p = 1, 3, 5, μόλυνση δεδομένων με N(µ = 0.75, σ 2 = 0.5)................. 42 2.11 MSE τοπικών εκτιμήσεων, n = 500, p = 10, 20, μόλυνση δεδομένων με N(µ = 3.3, σ 2 = 0.3 2 )................. 43 2.12 MSE τοπικών εκτιμήσεων, n = 500, p = 10, 20, μόλυνση δεδομένων με N(µ = 0.75, σ 2 = 0.5)................. 43 3.1 Βιοχημικά δεδομένα........................ 47 3.2 Βιοχημικά δεδομένα........................ 47 3.3 Εκτίμηση θέσης διαμέσου για σύνολα δεδομένων με N(0,1), n=100............................... 69 3.4 Αποτελέσματα Προσομοίωσης.................. 77 3.5 %FN και %FP, p=10, n=1000, n out =100, ɛ=10%, ρ mult =0.5, 500 προσομοιώσεις........................ 77 3.6 %FN και %FP, p=10, n=1000, n out =100, ɛ=30%, ρ mult =0.5, 500 προσομοιώσεις........................ 78 ix
3.7 Εκτοπα παραγόμενα με ελαφρώς μεγαλύτερο πίνακα συνδιακύμανσης (δ 2 =1.2).......................... 78 3.8 Δεδομένα Ιονόσφαιρας: Σημεία με την μεγαλύτερη Mahalanobis απόσταση........................... 78 3.9 LRS: Σημεία με την μεγαλύτερη Mahalanobis απόσταση.... 79 3.10 Προσομοίωση για p = 5, n = 50, ɛ =.2 Με σταθερές και τυχαίες συντεταγμένες......................... 80 3.11 Μέτρηση της ισομεταβλητότητας για τα δεδομένα της Ιονόσφιαρας 80 3.12 Χρόνος για δεδομένα προσομοίωσης σε δευτερόλεπτα a = b + cxd................................ 81 3.13 Αποτελέσματα υπολογιστικού χρόνου, n=2000, n out =100, ρ mult =0 82 4.1 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (6 κακά x-έκτοπα, 4 καλά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80........ 94 4.2 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 12% (6 κακά x-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80....................... 94 4.3 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα καλής μόλυνσης 12% (6 καλά x-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80................. 95 4.4 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (10 κακά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80.............. 95 4.5 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (6 κακά x-έκτοπα, 4 καλά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80........ 96 4.6 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (10 κακά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80.............. 96 4.7 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 10% στο (x 1,..., x p, y) = (1, 100, 0,..., 0, 100)........... 97 4.8 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 20% στο (x 1,..., x p, y) = (1, 100, 0,..., 0, 220)........... 97 5.1 Εκτίμηση (βx i ) για σύνολο δεδομένων κανονικής κατανομής N(0, 1)............................... 102 5.2 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (6 κακά x-έκτοπα, 4 καλά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80........ 108 5.3 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 12% (6 κακά x-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80....................... 109
5.4 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα καλής μόλυνσης 12% (6 καλά x-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80................. 110 5.5 Αποτελέσματα απόδοσης εκτιμητών σε δείγματα μόλυνσης 32% (10 κακά x-έκτοπα, 6 y-έκτοπα), n = 50, p = 3. Αληθινές τιμές: β 0 = 0.0, β 1 = 1.20, β 2 = 0.80.............. 111
Ευρετήριο Αλγορίθμων 1 Κεντράρισμα των x i στον μηδέν για την LP-LTAD διαδικασία. 29 2 Subgradient μέθοδος για την λύση του LP-LTAD....... 31 3 Συγκεντρωτικό βήμα C-step................... 51 4 OGK Εκτίμηση για θέση και διασπορά.............. 52 5 Αλγόριθμος του DetMCD.................... 54 6 Τοπική διαδικασία (X n, h).................... 64 7 Βήμα Κεντραρίσματος C-Step.................. 65 8 Βήμα κεντραρίσματος μετασχηματισμένων Δεδομένων..... 67 9 LTED(X n, h)........................... 68 10 Βήμα κεντραρίσματος C-Βήμα.................. 71 11 Συγκεντρωτικός Αλγόριθμος της διαδικασίας του LTED.... 72 12 Κεντράρισμα των y i στον μηδέν για την LP-LTAD διαδικασία. 101 xiii
Κεφάλαιο 1 Εισαγωγή Στην Ανθεκτική Στατιστική 1.1 Γενικά Οι περισσότεροι στατιστικοί εκτιμητές βασίζονται σε ένα αριθμό υποθέσεων. Γενικά, αυτές οι υποθέσεις αποσκοπούν στο να μοντελοποιήσουμε τα στατιστικά δεδομένα, έτσι ώστε να διευκολυνθούμε στην τεκμηρίωση των στατιστικών και υπολογιστικών ιδιοτήτων του εκτιμητή. Συχνά όμως, τα μοντέλα είναι α- πλουστεύσεις της πραγματικότητας και η εγκυρότητα τους είναι στην καλύτερη περίπτωση προσεγγιστική. Η πιο συνηθισμένη υπόθεση στην στατιστική μοντελοποιήση είναι ότι τα δεδομένα ακολουθούν την κανονική (Gaussian) κατανομή. Η υπόθεση αυτή εδώ και δυο αιώνες είναι η δομή για όλες τις κλασσικές μεθόδους στην ανάλυση διακύμανσης, παλινδρόμησης και αλλού. Κυρίως, η υπόθεση της κανονικής κατανομής τίθεται διότι αντιπροσωπεύει κατά προσέγγιση τα περισσότερα από τα στατιστικά δεδομένα και ταυτόχρονα επιτρέπει την διεξαγωγή των καλών ιδιοτήτων των εκτιμητών. Τους εκτιμητές αυτούς, οι οποίοι βασίζονται στις υποθέσεις ότι πληρείται ακριβώς η κανονικότητα τους αναφέρουμε ως κλασικούς εκτιμητές. Στην πραγματικότητα όμως, η υποτιθέμενη κανονική κατανομή για ένα σύνολο δεδομένων σε έναν εκτιμητή (κεντρικής τάσης, συνδιακύμανσης, παλινδρόμησης κ.τ.λ) πληρείται προσεγγιστικά στο ότι περιγράφει την πληθώρα των δεδομένων, μερικές παρατηρήσεις ακολουθούν μια διαφορετική μορφή ή και καθόλου μορφή. Με άλλα λόγια, ενώ τα περισσότερα δεδομένα ακολουθούν την κανονική κατανομή, ένα μικρότερο ποσοστό παρατηρήσεων βρίσκεται μακριά από την πληθώρα των δεδομένων. Τέτοιες αχαρακτήριστες παρατηρήσεις ο- νομάζονται έκτοπες (outliers) και επιδρούν καταστροφικά στους κλασσικούς εκτιμητές, οι οποίοι είναι βέλτιστοι κάτω από συνθήκες κανονικότητας. Ε- ναλλακτικά, ως outliers μπορούμε να χαρακτηρίσουμε έκτοπες τιμές οι οποίες εμφανίζονται με μεγαλύτερη συχνότητα από ότι στην κανονική κατανομή, ενώ το σχήμα της κανονικής κατανομής βρίσκεται κυρίως στην κεντρική περιοχή 1
των δεδομένων. Αξίζει να παρατηρήσουμε, ότι όταν τα στατιστικά δεδομένα ακολουθούν προσεγγιστικά την κανονική κατανομή, οι εκτιμητές δεν οδηγούν προσεγγιστικά σε καλά αποτελέσματα. Εάν υποθέσουμε ότι η πληθώρα των δεδομένων ακολουθεί κανονική κατανομή αλλά στην πραγματικότητα εμφανίζονται συχνότερα έκτοπες τιμές, τότε οι εκτιμήσεις μέγιστης πιθανοφάνειας παύουν να είναι βέλτιστες. Εμφανίζουν μεγάλη διακύμανση και μεγάλη μεροληψία εάν οι έκτοπες τιμές είναι ασύμμετρες. Στην στατιστική ανάλυση, οι ανθεκτικοί εκτιμητές αποσκοπούν στις α- ξιόπιστες εκτιμήσεις των παραμέτρων των στοχαστικών μοντέλων, όχι μόνο στην περίπτωση όπου τα δεδομένα ακολουθούν την υποτιθέμενη κατανομή (κανονική), αλλά επίσης όταν αυτό συμβαίνει προσεγγιστικά, όπως περιγράψαμε παραπάνω. Ενώ έμφαση δίνεται στις προσεγγιστικές κανονικές κατανομές, οι ανθεκτικοί εκτιμητές είναι αποτελεσματικοί και για άλλες κατανομές, οι οποίες είναι κοντά στην κανονική. Οι ανθεκτικοί εκτιμητές προσαρμόζονται καλά στην πληθώρα των δεδομένων. Αν τα δεδομένα δεν περιέχουν έκτοπα σημεία δίνουν προσεγγιστικά τις ίδιες εκτιμήσεις με τους κλασσικούς εκτιμητές. Παρατήρηση 1.1. Μια καλή συνέπεια από την προσαρμογή στην πληθώρα των δεδομένων ( καθαρά ), οι ανθεκτικοί εκτιμητές αποτελούν αξιόλογη τεχνική για αναγνώριση των έκτοπων, ακόμα και σε πολυδιάστατα δεδομένα. Εναλλακτική προσέγγιση αντιμετώπισης των έκτοπων είναι η τεχνική της διάγνωσης. Τα διαγνωστικά είναι στατιστικά εκτιμημένα με κλασικές μεθόδους, τα οποία οδηγούν σε αριθμητικά ή γραφικά συμπεράσματα για δεδομένα τα οποία αποκλίνουν από την κανονικότητα. Υπάρχει αρκετή βιβλιογραφία? για τα διαγνωστικά των έκτοπων αλλά η προσέγγιση αυτή έχει δυο μειονεκτήματα: Τα διαγνωστικά δεν είναι πάντα αξιόπιστα, κυρίως όταν τα δεδομένα περιέχουν επικαλυπτόμενα έκτοπα. Οταν δεν υπάρχει σαφή κριτήριο για την δειγματική τιμή των διαγνωστικών προκειμένου να χαρακτηρίσουμε τις αντίστοιχες παρατηρήσεις ως έκτοπες. Οι ανθεκτικές μέθοδοι αναπτύχθηκαν μετά το 1960 κυρίως από τους John Tukey (1960, 1962), Peter Huber (1964, 1967) και Frank Hampel (1971, 1974). Εχουν αναπτυχθεί και μελετηθεί ανθεκτικοί εκτιμητές καθώς και οι υπολογιστικοί αλγόριθμοι τους οι οποίοι είναι διαθέσιμοι σε αρκετά στατιστικά πακέτα όπως: S-PLUS, SAS και άλλα. Σκοπός των ανθεκτικών μεθόδων είναι η αύξηση αξιοπιστίας και ακρίβειας της εκτίμησης των διαφόρων στατιστικών μοντέλων. Για κάθε εκτίμηση παραμέτρων κεντρικής τάσης, συνδιακύμανσης, παλινδρόμησης κ.τ.λ., υπάρχουν αρκετές ανθεκτικές μέθοδοι και αναλυτής έχει διάφορες επιλογές για το προβλημά του. Για να επιλέξει κάποιος την πιο κατάλληλη μέθοδο η αλγόριθμο είναι σημαντικό να γνωρίζει πως λειτουργούν οι ανθεκτικοί μέθοδοι. Τα κυριότερα προβλήματα τα οποία μας απασχολούν σε αυτήν την διατριβή είναι τα ακόλουθα:
Τα στατιστικά δεδομένα περιέχουν έκτοπες παρατηρήσεις (outliers), οι οποίες αποκλίνουν από την γενική μορφή (pattern) ή τον κύριο όγκο (balk) δεδομένων. Οι κλασικές δειγματικές εκτιμήσεις, όπως μέσης τιμής, συνδιακύμανσης, παλινδρόμησης με ελάχιστα τετράγωνα μπορεί να επηρεασθούν δυσμενώς από τα έκτοπα. Να αναπτυχθούν νέες ανθεκτικές μέθοδοι εκτίμησης παραμέτρων και ταυτόχρονα αναγνώρισης των έκτοπων. Ακόμα να συγκριθούν με τις υπάρχουσες ανθεκτικές μεθόδους και στα δύο, όταν τα δεδομένα περιέχουν έκτοπα, καθώς και όταν είναι ( καθαρά ). Παρατήρηση 1.2. Αξίζει να σημειωθεί ότι δεν θα έπρεπε πάντοτε να θεωρούμε ότι τα έκτοπα είναι ( κακά ) δεδομένα. Αυτά μπορούν να περιέχουν απροσδόκητα σχετική πληροφορία. 1.1.1 Κριτήρια Ανθεκτικότητας Παραμετρικά Μοντέλα Στην στατιστική εκτιμήση υποθέτουμε ότι οι παρατηρούμενες τιμές x 1, x 2,..., x n είναι ανεξάρτητες τυχαίες μεταβλητές με την ίδια κατανομή πιθανότητας F θ και επιθυμούμε την εκτίμηση του θ από τις n παρατηρήσεις. Δηλαδή προσπαθεί κανείς να προβλέψει με βάση το δείγμα, την τιμή της παραμέτρου θ, όσο το δυνατόν πλησιέστερα στην αληθινή τιμή, εφόσον η υπόθεση μας για την F θ είναι σωστή. Για παράδειγμα, η μέθοδος μεγίστης πιθανοφάνειας οδηγεί στην βέλτιστη εκτίμηση όταν ισχύει το υποθετικό μοντέλο. Συχνά όμως η πραγματική κατανομή των παρατηρήσεων δεν συμπίπτει ακριβώς με κάποια από τις κατανομές F θ του υποθετικού παραμετρικού μοντέλου. Οι τρείς κυριότερες αιτίες που διακρίνει ο Hampel (1971) είναι οι εξής: Ενδέχεται να υπάρχουν μικτά σφάλματα στα δεδομένα, μια τιμή π.χ. δεν αντιγράφθηκε σωστά κ.τ.λ. Πιθανόν να υπάρχει περιορισμένη ακρίβεια στις μετρήσεις. Η αληθινή κατανομή, εκτός των δύο πρώτων παραβιάσεων διαφέρει στην μορφή της από την F θ. Οι παραβιάσεις αυτές από το μοντέλο F θ όσο ήπιες και αν είναι επιδρούν δυσμενώς στην συμπεριφορά του βέλτιστου εκτιμητή. Για να αντιμετωπίσουμε την συνέπεια των αποκλίσεων, από το υποθετικό μοντέλο, ο πιο σωστός τρόπος είναι να περιορίσουμε την επίδραση ή να διαγράψουμε μερικά έκτοπα και να πλησιάσουμε έτσι την υποθετική κατανομή. Οι σύγχρονοι ανθεκτικοί αλγόριθμοι συγκεντρώνονται περισσότερο στο κύριο μέρος των δεδομένων και δουλεύουν σωστά για τις παραμέτρους του
μοντέλου παρά την παρουσία των έκτοπων ή και άλλων αποκλίσεων από το μοντέλο F θ. Για να καταλάβουμε τον τρόπο με τον οποίο οι ανθεκτικοί εκτιμητές (θέσης, διασποράς, παλινδρόμησης) συμπεριφέρονται είναι χρήσιμο να αναφερθεί ότι μια καλή ανθεκτικότητα διακρίνεται σε: ποιοτική ποσοτική βέλτιστη Ποιοτική Ανθεκτικότητα Ενας εκτιμητής ορίζεται ως ανθεκτικός αν μικρές αλλαγές στο υποθετικό παραμετρικό μοντέλο F θ επιφέρουν μικρές αλλαγές στον εκτιμητή. Ο Huber (1981) υπέδειξε την Prokhorov απόσταση ως ένα αποδεκτό κατάλληλο μέτρο για να προσδιορίσει τις μικρές αλλαγές σε μια κατανομή. Αν το δείγμα x 1, x 2,..., x n ακολουθεί την εμπειρική κατανομή F θ, ο εκτιμητής ˆθ (για το θ) περιγράφεται ως: ˆθ(F n ) = ˆθ n (x 1, x 2,..., n) (1.1) ή πιο μεθοδικά, ο ορισμός της εκτίμησης ˆθ(F n ) επεκτείνεται φυσιολογικά σ εναν αριθμό του ˆθ(F n ): ˆθ(F ) = lim ˆθ(F n ) (1.2) n όπου F είναι η αληθινή κατανομή των παρατηρήσεων, και εάν ο εκτιμητής ικανοποιεί την παραπάνω σχέση καλείται συνεπής στην F. Ακόμη, αν ο εκτιμητής ικανοποιεί την σχέση: ˆθ(F θ ) = θ, καλείται συνεπής κατά Fisher. Στην περίπτωση όπου το παραμετρικό μοντέλο F θ είναι μια προσέγγιση πραγματική, είναι φυσιολογικό να απαιτούμε ότι ο εκτιμητής ˆθ είναι συνεχής. Συνέχεια σημαίνει ότι το ˆθ(F n ) αλλάζει μόνο ελαφρά, αν γίνει μια μικρή αλλαγή στο δείγμα, είτε εξαιτίας μικτών σφαλμάτων σε μερικές παρατηρήσεις, είτε μικρών αλλαγών σ ολες τις παρατηρήσεις x i. Επίσης συνέχεια σημαίνει ότι αν F είναι κοντά στην F θ, τότε το ˆθ(F ) είναι κοντά στο θ. Συμπεραίνουμε λοιπόν ότι μια εκτιμήτρια ˆθ είναι ανθεκτική, εάν είναι συνεχής. Πιο γενικοί ορισμοί της ποιοτικής ανθεκτικότητας έχουν δοθεί από τους Hampel (1971) και Huber (1981). Μια χρήσιμη πρακτική ερμηνεία των ορισμών ποιοτικής ανθεκτικότητας είναι η εξής: Εάν δύο εμπειρικές κατανομές δεδομένων F n, G n έχουν μικρή απόσταση σύμφωνα με κάποιο μέτρο το οποίο αναφέρθηκε παραπάνω, Prokhovov, π(f n, G n ) < δ, και ισχύει: ˆθ n (F n ) ˆθ n (G n ) < ɛ (1.3)
συνεπάγεται ότι η εκτιμήτρια ˆθ n είναι ανθεκτική στην F, σύμφωνα με λήμμα του Hampel (1971). Ακόμα ο Hampel απέδειξε ότι αν μια εκτιμήτρια είναι συνεχής στην F, τότε η ˆθ n είναι ανθεκτική στην F. Συνήθως στην πράξη ενδιαφερόμαστε για την συμπεριφορά του εκτιμητή ˆθ n, για ένα ορισμένο n, και θέλουμε να έχει τις εξής ιδιότητες: Η κατανομή του ˆθ n για δείγμα που προέρχεται από την κατανομή F θ, L Fθ (ˆθ n ), να είναι όσο το δυνατόν πλησίον του θ. Η κατανομή του ˆθ n για δείγμα προέρχεται από την κατανομή G, L G (ˆθ n ), να διαφέρει όσο το δυνατόν λιγότερο από την L Fθ (ˆθ n ) όταν η G είναι πολύ κοντά στην F θ. Οι περισότερρες ανθεκτικές προσεγγίσεις μέχρι τώρα, ερευνούν τις ασυμπτωτικές ιδιότητες της ˆθ (καθώς ο αριθμός των παρατηρήσεων n τείνει στο άπειρο) και ελέγχουν συνήθως με την μέθοδο Monte Carlo τις ιδιότητες των εκτιμητών για κάποιο σταθερό n. Η ερμηνεία των ιδιοτητών της ˆθ μπορεί να είναι διαφορετική για διαφορετικές τιμές του n και πολύ διαφορετική για την ασυμπτωτική ερμηνεία. Λαμβάνοντας υπόψη τα παραπάνω, μια εκτιμήτρια ˆθ θα πρέπει να έχει τις ακόλουθες ιδιότητες: 1. Η ˆθ είναι συνεχής σε όλες τις κατανομές F θ (σύμφωνα με την Prokhorov απόσταση) και αυτό σημαίνει ανθεκτικότητα και συνέπεια ˆθ(F θ ) = 0. 2. Η ˆθ είναι βέλτιστη εκτιμήτρια του θ, με την έννοια ότι η κατανομή της L F (ˆθ n ) έχει την μικρότερη δυνατή διακύμανση. 3. Η εκτιμήτρια ˆθ αλλάζει όσο το δυνατόν λιγότερο σε μικρή περιοχή της F θ για κάθε θ (ανθεκτικότητα). 4. Η εκτίμηση ˆθ δεν απομακρύνεται πολύ από το θ για μια πλατύτερη περιοχή της F θ για κάθε θ. 5. Η εκτίμηση ˆθ είναι εύκολο να υπολογισθεί. Η κυριότερη αντίθεση δημιουργείται μεταξύ των ιδιοτήτων 2 και 3. Εάν ο βέλτιστος εκτιμητής για το μοντέλο δεν είναι ανθεκτικός, πρέπει να γίνει κάποιος συμβιβασμός μεταξύ βελτιστοποίησης και ανθεκτικότητας. Ο συμβιβασμός αυτός εξαρτάται από το μέγεθος του δείγματος, την διακύμανση του εκτιμητή και την ευαισθησία, όπως ορίζεται στην επόμενη παράγραφο. Ποσοτική Ανθεκτικότητα Είναι πολύ χρήσιμο να περιγράψουμε ποσοτικά το μέγεθος της αλλαγής, που επιφέρει μια μικρή αλλαγή της υποκείμενης κατανομής F, στην κατανομή L F (ˆθ) ενός εκτιμητή ˆθ n = ˆθ n (x 1, x 2,..., x n ).
Παράδειγμα 1.1. Για να κατανοήσουμε καλύτερα τους ορισμούς, οι οποίοι θα δοθούν συνέχεια, χρησιμοποιούμε ένα τεχνητό σύνολο δεδομένων δημιουργώντας αριθμούς από την κατανομή N(0, 1). Για να μετρήσουμε την επίδραση των διαφορετικών θέσεων ενός έκτοπου, εισάγουμε ένα επιπλέον σημείο x 0 το οποίο επιτρέπεται να περιφέρεται επάνω στην γραμμή. Η καμπύλη ευαισθησίας της εκτίμησης ˆµ για το δείγμα x 1,..., x n είναι η διαφορά: ˆµ(x 1,..., x n, x 0 ) ˆµ(x 1,..., x n ) ως μια συνάρτηση της θέσης του έκτοπου. θεωρούμε τώρα, ότι αντί ενός σημείου x 0 εισάγουμε m σημεία x 0 στο δείγμα (π.χ x 0 =1000), τότε η προκύπτουσα μεροληψία είναι ˆµ(x 0, x 0,..., x 0, x m+1,..., x n ) µ(x 1,..., x n ) Η οποία είναι συνάρτηση των m τιμών x 0. Για να εκφράσουμε τόσο την ευαισθησία όσο και τη μεροληψία με μαθηματικά πρότυπα, θα ήταν πιο εύκολο να θεωρήσουμε τις εκτιμήσεις, όταν το μέγεθος δείγματος τείνει στο άπειρο ασυμπτωτικά. Ο Huber (1981) θεωρεί σαν κριτήριο σε μια ποσοτική ανθεκτικότητα μεγάλου δείγματος, την ασυμπτωτική μεροληψία ˆθ(F ) ˆθ(F θ ) και την ασυμπτωτική διακύμανση V (ˆθ, F ) σε μια περιοχή p του μοντέλου κατανομής F θ. Ετσι, για να αξιολογήσουμε τη συμπεριφορά του εκτιμητή στη γειτονική περιοχή της F θ, δύο από τα πιο σπουδαία χαρακτηριστικά σε μια ποσοτική ανθεκτικότητα είναι η μέγιστη μεροληψία και η μέγιστη διακύμανση b(ɛ) = sup F ˆθ(F ) ˆθ(F θ ) (1.4) U(ɛ) = max F V (ˆθ, F ) (1.5) Επίσης, κατάλληλη πληροφορία για μια ποσοτική ανθεκτικότητα παρέχεται από τη συνάρτηση επίδρασης IF (influence function) και άλλες ποσότητες που προέρχονται απ αυτήν. Η συνάρτηση επίδρασης IF περιγράφει την αλλαγή του εκτιμητή ˆθ από μια επιπλέον παρατήρηση x, δεδομένου ότι υπάρχει ένα μεγάλο δείγμα με κατανομή F. Η συνάρτηση επίδρασης IF (x, T, F ), όπως διατυπώθηκε από τον Hampel (1974), είναι η πρώτη παράγωγος του εκτιμητή ˆθ στην υποκειμενική κατανομή F, όπου η παρατήρηση x επιφέρει μια ελάχιστη αλλαγή στην κατανομή πιθανότητας. IF (x; ˆθ, ˆθ(1 ɛ)f + ɛδx0 F ) = lim ˆθ(F ), (1.6) x 0 ɛ
όπου δx 0 παριστάνει μια κατανομή η οποία έχει συγκεντρώσει όλη τη μάζα της στο σημείο x 0. Η IF εκφράζει την μεροληψία που προκαλείται από την εισαγωγή μερικών έκτοπων στο σημείο x 0, τυποποιημένη με την ποσότητα της μόλυνσης ɛ. Άλλα σημαντικά μέτρα ανθεκτικότητας τα οποία προκύπτουν από την συνάρτηση επίδρασης IF είναι: Η ευαισθησία μικτών σφαλμάτων (gross-error sensitivity) γ οριζόμενη ως: γ = sup IF (x; ˆθ, F ). (1.7) x Η ευαισθησία γ περιγράφει τη μέγιστη επίδραση που προκαλείται στον εκτιμητή από μια μικρή μόλυνση της κατανομής F, και γι αυτό, τη σταθερότητα του εκτιμητή ˆθ κάτω από μικρές αλλαγές της F. Σε μια ανθεκτική εκτίμηση επιθυμούμε η ευαισθησία γ να είναι περιορισμένη ή όσο το δυνατόν μικρότερη. Η συνάρτηση IF μας επιτρέπει να εκτιμήσουμε τη διακύμανση του εκτιμητή ˆθ, όπως προτάθηκε από τους Hampel et al. (1986), V (ˆθ, F ) = IF (x; ˆθ, F ) 2 df (x). (1.8) η οποία είναι το βασικό μέτρο αποτελεσματικότητας (efficiency) του ˆθ. Το Σημείο Θραύσης BP (Breakdown Point) Σε μια ανθεκτική εκτίμηση απαιτείται επίσης η ελάχιστη απόσταση από την υποθετική κατανομή F θ, η οποία εξασφαλίζει μοναδική τιμή στον εκτιμητή ˆθ. Η απόσταση αυτή είναι ένα μέτρο ποσοτικής ανθεκτικότητας, είναι γνωστή ως σημείο θραύσης (Breakdown Point) και μπορούμε να πούμε ότι είναι η απόσταση από την κατανομή F θ, πέρα από την οποία ο εκτιμητής γίνεται αναξιόπιστος (δεν παρέχει καμία πληροφορία). Με λίγα λόγια, το σημείο θραύσης BP ενός εκτιμητή ˆθ της παραμέτρου θ, είναι το μέγιστο ποσοστό μόλυνσης (ποσοστό έκτοπων) που μπορούν να περιέχουν τα δεδομένα έτσι ώστε το ˆθ να εξακολουθεί να δίνει πληροφορία για το θ (δεν έχει οδηγηθεί στο άπειρο). Ορισμός 1.1. Η αυμπτωτική μόλυνση BP ενός εκτιμητή ˆθ στην F, συμβολιζόμενη με ɛ (ˆθ, F ) είναι το μέγιστο ɛ (0, 1), έτσι ώστε για ɛ < ɛ, ˆθ((1 ɛ)f + ɛg) ως μια συνάρτηση του G παραμένει φραγμένη. Σήμερα το σημείο θραύσης BP αποτελεί ίσως το πιο σημαντικό μέτρο ανθεκτικότητας για τους σύγχρονους ανθεκτικούς εκτιμητές, οι οποίοι επιδιώκουν BP μέχρι 50%, ɛ (ˆθ, F ) 0, 50. Οι πιο σπουδαίες απαιτήσεις ανθεκτικότητας, εκτός της ποιοτικής ανθεκτικότητας, είναι η χαμηλή ευαίσθησία γ και ένα υψηλό σημείο κατάρρευσης HBP (Maronna and Yohai (1981)).
Βέλτιστη Ανθεκτικότητα Σε αυτή την παράγραφο θεωρούμε δυο βασικούς διαφορετικούς τρόπους με τους οποίους μπορούμε να ορίσουμε έναν βέλτιστο εκτιμητή. Προσέγγιση Ελαχιστοποιήσης-Μεγίστου minmax Μια από τις κυριότερες προσεγγίσεις της ανθεκτικής εκτίμησης συνίσταται στην ανεύρεση της πιο ευνοικής κατανομής μεταξύ όλων των εναλλακτικών του παραμετρικού μοντέλου F θ, μέσα σε μια ορισμένη περιοχή p ɛ με την ελαχιστοποιήση της ασυμπτωτικής διακύμανσης των εκτιμητών. Ο Huber (1964) θεμελίωσε θεωρητικά την ανθεκτική εκτίμηση βελτιστοποιώντας το χειρότερο που μπορεί να συμβεί στην περιοχή p ɛ του παραμετρικού μοντέλου, μετρώντας το με την ασυμπτωτική διακύμανση του εκτιμητή. Το πρόβλημα σε μια ανθεκτική εκτίμηση, φορμαρίστηκε από τον Huber σαν το γνωστό παιχνίδι two-person zero sum. Η φύση διαλέγει την κατανομή F από την περιοχή p ɛ, ο στατιστικολόγος διαλέγει έναν εκτιμητή ˆθ με μια συνάρτηση ψ c, και το κέρδος για τη φύση και απώλεια για το στατιστικολόγο είναι η ασυμπτωτική διακύμανση V (ˆθ, F ). Επίσης απέδειξε ο ίδιος ότι υπάρχει λύση στο παιχνίδι και μάλιστα στην περίπτωση του μοντέλου των μικτών σφαλμάτων: η περίφημη συνάρτηση: F = F θ (1 ɛ) + ɛg ψ c (x) = max( c, min(c, x)) (1.9) δίνει έναν εκτιμητή πιθανοφάνειας και συμφωνεί με την γνωστή minmax στρατηγική. Γενικά ο Peter Huber (1964, 1967) πρότεινε σαν βέλτιστη ανθεκτικότητα την ελαχιστοποιήση της μέγιστης διακύμανσης του εκτιμητή ˆθ, μέσα σε μια γνωστή περιοχή p ɛ του υποτιθέμενου παραμετρικού μοντέλου. Ακριβή αποτελέσματα της μεθόδου ελαχιστοποιήσης-μεγίστου (minmax) για πεπερασμένο δείγμα υπάρχουν μόνο για ορισμένες περιπτώσεις. Συγκεκριμένα, δεν είναι δυνατόν να πετύχουμε ακριβή αποτελέσματα σε πεπερασμένο δείγμα, όταν υπάρχουν ενοχλητικές παράμετροι, δηλαδή παράμετροι οι οποίες συντελούν στην τυποποίηση διάφορων εννοιών, όπως π.χ του σφάλματος u στην παλινδρόμηση και η εκτίμηση τους είναι δύσκολη. Προσέγγιση με Συνάρτηση Επίδρασης Η προσέγγιση αυτή ονομάζεται απειροελάχιστη προσέγγιση (infinitesimal approach) και στηρίζεται στις κεντρικές παραδοχές, της ποιοτικής ανθεκτικότητας, της συνάρτησης επίδρασης και του σημείου κατάρρευσης. Περιλαμβάνει μια σφαιρική άποψη ανθεκτικότητας και έχει θεμελιωθεί από τον Hampel (1968) για μονοδιάστατο παραμετρικό μοντέλο και στην συνέχεια γενικεύθηκε για πολυδιάστατο μοντέλου από τον Krasker (1980).
Εφ όσον η αληθινή κατανομή των δεδομένων F υποτίθεται ότι βρίσκεται σε κάποια περιοχή του παραμετρικού μοντέλου F θ και εφ όσον για μεγάλο n η εμπειρική κατανομή F n πλησιάζει την F, είναι πολύ χρήσιμη η διερεύνηση της συνάρτησης επίδρασης IF (x; T, F ). Η πιο σπουδαία απαίτηση της ανθεκτικότητας είναι η χαμηλή ευαισθησία γ. Αλλά μια χαμηλή ευαισθησία έρχεται σε αντίθεση με την απαίτηση της αποτελεσματικότητας, η οποία ταυτίζεται με τη χαμηλή ασυμπτωτική διακύμανση V (T, F ). Δεν μπορούμε δηλαδή να βελτιώσουμε ταυτόχρονα τα όρια των δύο ποσοτήτων. Σύμφωνα με τον Hampel (1968), περισσότερη ανθεκτικότητα συνεπάγεται μικρότερη αποτελεσματικότητα και αντίστροφα. Είναι γνωστό, ότι ένας M-εκτιμητής ορίζεται βασικά από μια συνάρτηση ψ(x, θ) ορισμένη στο χώρο R θ και η τιμή του στην F είναι η λύση θ, η οποία ικανοποιεί την εξίσωση: ψ(x, θ)f (dx) = 0 (1.10) Οι M-εκτιμητές επινοήθηκαν για πρώτη φορά από τον Huber (1964, 1967) και είναι βασικοί εκτιμητές μέγιστης πιθανοφάνειας. Απαίτηση της απειροελάχιστης προσέγγισης για έναν M-εκτιμητή συνεπή κατά Fisher είναι η ελαχιστοποιήση της ασυμπτωτικής διακύμανσης κάτω από ένα δεδομένο περιορισμό της ευαισθησίας γ. Η βελτιστοποίηση ενός εκτιμητή δεν στηρίζεται αποκλειστικά στις παραπάνω ιδιότητες. Φυσικά υπάρχουν πρακτικοί λόγοι και άλλες ανθεκτικές απόψεις λιγότερης ή περισσότερης σπουδαιότητας, που πρέπει να περιληφθούν σε μια καλή πρακτική μέθοδο. 1.2 Προβλήματα Θέσης και Κλίμακας Η εκτίμηση θέσης και κλίμακας είναι η εκτίμηση του κέντρου των δεδομένων, όπως η μέση τιμή και διάμεσος. Εστω x = (x 1,..., x n ) είναι ένα σύνολο παρατηρούμενων τιμών. Η δειγματική μέση τιμή x και η δειγματική τυπική απόκλιση s ορίζονται από τις εξισώσεις: x = 1 n n x i, i=1 s 2 = 1 n 1 (1.11) n (x i x) 2 i=1 Η δειγματική μέση τιμή των δεδομένων, αναμένεται να παρέχει μια καλή εκτίμηση του κέντρου ή θέσης (location) των δεδομένων. Παρόμοια, αναμένεται η τυπική απόκλιση να παρέχει μια καλή εκτίμηση διασποράς των δεδομένων. Ομως, η ύπαρξη και ενός μόνο έκτοπου επιδρά αρνητικά σε αυτές τις κλασσικές εκτιμήσεις, κάτι που φαίνεται από το επόμενο παράδειγμα.
Παράδειγμα 1.2. Εστω σύνολο 24 παρατηρήσεων το οποίο έχει ως ακολούθως σε αύξουσα σειρά: 2.20 2.20 2.40 2.50 2.70... 3.70 3.70 3.80 5.50 28.90 Η τιμή 28.9 ξεχωρίζει από τις υπόλοιπες παρατηρήσεις και θα μπορούσε να χαρακτηριστεί ως έκτοπο. Θα μπορούσε κανείς να θεωρήσει ότι αυτή η ασυνήθιστη μεγάλη τιμή προέρχεται από λανθασμένη θέση υποδιαστολής στην αληθινή τιμή 2.89. Σε κάθε περίπτωση, είναι ένα έκτοπο με σημαντική επιρροή όπως ακολουθεί. Η τιμή της δειγματικής μέσης τιμής και τυπικής απόκλισης από το παραπάνω σύνολο δεδομένων είναι x = 4.20 και s = 5.30 αντίστοιχα. Αφού η x = 4.20 είναι μεγαλύτερη όλων εκτός δυο τιμών του δείγματος, δεν βρίσκεται εντός του κυρίου όγκου των παρατηρήσεων και ως εκ τούτου δεν εκπροσωπεί μια καλή εκτίμηση του κέντρου των δεδομένων. Αν διαγράψουμε την ύποπτη τιμή 28.95, τότε οι δειγματικές εκτιμήσεις αλλάζουν σε x = 3.20 και s = 0.7. Τώρα η δειγματική μέση τιμή είναι μια καλή εκτίμηση του κέντρου δεδομένων, όπως φαίνεται στο σχήμα, και η τυπική απόκλιση s είναι περίπου επτά φορές μικρότερη. Παρατηρείται στο παράδειγμα (1.2) πόσο μεγάλη επίδραση μπορεί να έχει μόνο ένα έκτοπο στις δειγματικές εκτιμήσεις για τις παραμέτρους µ και σ. Ε- ξάλλου, είναι εύκολο να διαπιστωθεί ότι καθώς ένα έκτοπο παίρνει αυθαίρετα μεγάλες τιμές από εως + οι τιμές x και s μεταβάλονται από το εως +. Οπότε, ένα μόνο έκτοπο έχει απεριόριστη επιρροή στις δυο αυτές κλασικές εκτιμήσεις, καθώς και στα κλασικά διαστήματα εμπιστοσύνης και ε- λέγχους. Στο παράδειγμα (1.2) φαίνεται ότι ένας εύκολος τρόπος να αντιμετωπιστούν τα έκτοπα είναι να τα ανιχνεύσουμε και να τα διαγράψουμε από το δείγμα. Υπάρχουν αρκετοί τρόποι να ανιχνεύσουμε τα έκτοπα αλλά η διαγραφή τους δημιουργεί προβλήματα όπως: Πότε πραγματοποιείται η διαγραφή ενός έκτοπου; Πότε μια παρατήρηση είναι αρκετά απομακρυσμένη για να διαγραφεί; Η διαγραφή απαιτεί κάποιο κριτήριο; Η παρατήρηση μέσα στο δείγμα μεταφέρει μια πληροφορία και η διαγραφή της δεν είναι πάντα επιθυμητή. Αφού υπάρχει γενικά η αβεβαιότητα ως προς το πότε μια παρατήρηση είναι έκτοπο, υπάρχει ένα ρίσκο διαγραφής μιας καλής παρατήρησης, το οποίο οδηγεί σε υποεκτίμηση της μεταβλητότητας των δεδομένων. Είναι γνωστό ότι η διάμεσος δεν επηρεάζεται από έκτοπες παρατηρήσεις, οπότε αποτελεί μια αρκετά καλή μέθοδο. Σε ένα δείγμα η διάμεσος επιτυγχάνεται, αν ταξινομηθούν οι παρατηρήσεις x = (x 1,..., x n ) σε αύξουσα σειρά, x (1) < x (2) <... < x (n)
εάν το n είναι περιττός αριθμός, τότε n = 2m + 1 για κάποιον ακέραιο, και στην περίπτωση αυτή Med(x) = x (m). Εάν το n είναι ζυγός αριθμός, τότε Med(x) = (x (m) + x (m+1) )/2. Στο παράδειγμα (1.2), η διάμεσος είναι 3.38, ενώ η διάμεσος χωρίς τη μέγιστη τιμή είναι 3.37 δείχνοντας ότι δεν επηρεάζεται από την παρουσία έκτοπων. Εάν το έκτοπο πάρει την τιμή +, η διάμεσος παραμένει 3.38. Γενικά, η δειγματική διάμεσος προσαρμόζεται καλά στα δεδομένα με η χωρίς έκτοπα και δεν επηρεάζεται πολύ από αυτά. Με λίγα λόγια έιναι μια ανθεκτική εκτίμηση για το κέντρο των δεδομένων. 1.3 Αλγόριθμοι Ανθεκτικής Στατιστικής Πολλοί αλγόριθμοι έχουν αναπτυχθεί για την επίλυση διάφορων προβλημάτων, όπως τον υπολογισμό εκτιμητών, της Ανθεκτικής Στατιστικής. Τόσο για εκτίμηση θέσης, πίνακα συνδιακύμανσης αλλά και παλινδρόμησης. Στην συνέχεια αυτής της ενότητας θα γίνει μια εισαγωγική σύντομη επισκόπηση τους με σκοπό την ανάδειξη της κυρίας δομής κάποιων χαρακτηριστικών αλγόριθμων ανθεκτικής στατιστικής, αλλά και τον εντοπισμό των μειονεκτημάτων τους. 1.3.1 Ανθεκτική Εκτίμηση Θέσης (μέση τιμή, διάμεσος) Μέθοδος των Ελάχιστων Αποκομμένων Απολύτων Αποκλίσεων LTAD Η πιο δημοφιλής μέθοδος ανθεκτικής εκτίμησης θέσης στην μονομεταβλητή περίπτωση είναι η μέθοδος των ελάχιστων αποκομμένων απολύτων αποκλίσεων LTAD η οποία ανήκει στην οικογένεια των εκτιμητών μισού δείγματος (half samples) και μελετήθηκε από τον Tableman (1994a). Ουσιαστικά ερευνά το 50% των παρατηρήσεων με τις μικρότερες αποκλίσεις απο την διάμεσο. Προφανώς αυτό είναι ένα πρόβλημα συνδυαστικής. Το πλεονέκτημα της είναι ότι χρησιμοποιεί ένα κριτήριο το οποίο υπολογίζεται πάνω στα μισά-δείγματα γι αυτό και μειώνονται τα υποσύνολα που χρησιμοποιεί. Το μειονέκτημα της είναι ότι δεν μπορεί να εφαρμοστεί για πολυμεταβλητά προβλήματα. Σύνοψη Αλγόριθμου του LTAD Ενας εύχρηστος αλγόριθμος του LTAD είναι ο εξής: 1. Θεωρούνται τα n h συνεχή δείγματα των x 1 x 2... x n 2. Πάνω σε αυτά τα n h συνεχή δείγματα υπολογίζονται οι αντίστοιχες διάμεσοι. 3. Επιλέγεται ως LTAD η διάμεσος αυτή που αντιστοιχεί στο δείγμα με το ελάχιστο άθροισμα απολύτων αποκλίσεων.
1.3.2 Ανθεκτική Εκτίμηση Συνδιακύμανσης Εκτιμητής Ελάχιστης Ορίζουσας Πίνακα Συνδιακύμανσης MCD Ο εκτιμητής ελάχιστης ορίζουσας πίνακα συνδιακύμανσης MCD προτάθηκε από τον Rousseeuw (1984), ανήκει και αυτός στην οικογένεια εκτιμητών μισού δείγματος. Το κυριότερο κριτήριο του είναι η Mahalanobis απόσταση η οποία ορίζεται ως εξής: D 2 i = (x i µ) T Σ 1 (x i µ) Οπου µ είναι η εκτίμηση θέσης και Σ ο πίνακας συνδιάκύμανσης. Το βήμα κλειδί του αλγορίθμου του MCD είναι το C-βήμα (συγκεντρωτικό βήμα, Concentration-step), επειδή συγκεντρώνει h παρατηρήσεις με τις μικρότερες Mahalanobis αποστάσεις. Με απλούς αλγοριθμικούς όρους το C-βήμα περιγράφεται ακολούθως Σύνοψη C-βήματος Δεδομένου ενός υποσυνόλου h παρατηρήσεων 1. Υπολογισμός των Mahalanobis αποστάσεων D 2 i. 2. Ταξινόμηση των αποστάσεων D 2 i. 3. Επιλογή των h μικρότερων D 2 i. 4. Επαναλαμβάνονται τα βήματα 1-3 μέχρι σύγλισης στο δείγμα με τις μικρότερες h αποστάσεις. Εξαιτίας του μικρού αριθμού παρατηρήσεων (n) και του μικρού αριθμού στηλών (p) των δεδομένων που μπορεί να επεξεργαστεί ο αλγόριθμος του MCD αναπτύχθηκε ο αλγόριθμος του Fast-MCD από τους Rousseeuw and Driessen (1999). Ο παραπάνω αλγόριθμος ορίζεται ως εξής: Σύνοψη Αλγόριθμου του Fast-MCD 1. Επιλογή τυχαίων πολλών υποσυνόλων, h παρατηρήσεων, του δείγματος π.χ 500. 2. Εφαρμογή C-βημάτων σε κάθε ένα από τα παραπάνω υποσύνολα έως ότου αυξηθούν σε δείγματα h παρατηρήσεων. 3. Επιλογή του υποσυνόλου με την μικρότερη ορίζουσα του πίνακα συνδιακύμανσης. Αν και βελτιώνει τον υπολογιστικό χρόνο του MCD αρκετά ο αλγόριθμος του Fast-MCD δεν οδηγεί σε βέλτιστη λύση και εξακολουθεί να είναι αποτελεσματικός μόνο για μεσαία προβλήματα και όχι για μεγάλα.
Ορθογώνιος Εκτιμητής (OGK), M Εκτιμητής και S Εκτιμητής Ο εκτιμητής του OGK αναπτύχθηκε από τους Maronna and Zamar (2002a). Ο OGK περιορίζει τον μεγάλο αριθμό της διάστασης p γιατί λαμβάνει ανά ζεύγη τις μεταβλητές του πίνακα X για να μειωθεί σημαντικά ο υπολογιστικός χρόνος. Βασικό κριτήριο του είναι η Mahalanobis απόσταση. Η λήψη των μεταβλητών ανά ζεύγη έχει ως αποτέλεσμα τον περιορισμό της αποτελεσματικότητας και ανθεκτικότητας του αλγορίθμου. Για να βελτιωθεί η αποδοτικότητα του στις εκτιμήσεις που προκύπτουν αρχικά γίνεται η ελάφρυνση τους. Οι M-εκτιμήσεις με περιορισμούς αναπτύχθηκαν από τον Rocke (1996). Ξεκινούν με αρχικές ανθεκτικές εκτιμήσεις (µ 0, S 0 ) που προκύπτουν από το MCD, στην συνέχεια γίνονται διαδοχικές επαναλήψεις με την χρήση συνάρτησης ελάφρυνσης, όπου προκύπτουν δυο παράμετροι c και M, οι οποίοι καθορίζουν το επιθυμητό σημείο κατάρρευσης και την ασυμπτωτική πιθανότητα απόρριψης. Οι S-εκτιμήσεις αναπτύχθηκαν από τον Rousseeuw and Leroy (1987) και μελετήθηκαν επιπλέον απο τον Davies (1992). Υπολογίζονται παρόμοια με τα C-βήματα του MCD. 1.3.3 Ανθεκτική Εκτίμηση Παλινδρόμησης Εχουν αναπτυχθεί πολλές κατηγορίες ανθεκτικών εκτιμητών στην παλινδρόμηση οι οποίες πληρούν αρκετές καλές ιδιότητες. Ανάλογα με τον τύπο των έκτοπων που αντιμετωπίζουν μπορούμε να ξεχωρίσουμε δύο οι οποίες είναι οι εξής: 1. M εκτιμητές Huber Είναι καταλληλότεροι για κατάλοιπα που αντιστοιχούν στα y έκτοπα. 2. GM εκτιμητές Welsch Είναι κατάλληλοι και για τους δύο τύπους x, y έκτοπα. M Εκτιμητές Huber Η κεντρική ιδέα των αλγορίθμων του Huber ακολουθεί την min max στρατηγική αλλά ταυτόχρονα διατηρεί τους ανθεκτικού εκτιμητές στην οικογένεια των εκτιμητών μεγίστης πιθανοφάνειας. Ο επαναληπτικός αλγόριθμος για ένα απλό μοντέλο παλινδρόμησης ακολουθεί τα παρακάτω βήματα. Σύνοψη Αλγόριθμου M-Huber 1. Εκτίμηση γραμμής παλινδρόμησης με ελάχιστα τετράγωνα. 2. Προσέλκυση των παρατηρήσεων στην γραμμή παλινδρόμησης (όπου υ- πάρχουν μεγάλα κατάλοιπα).
3. Επανεκτίμηση της γραμμής παλινδρόμησης στα μετασχηματισμένα δεδομένα με ελάχιστα τετράγωνα. 4. Μέχρι σύγκλισης της γραμμής ˆβ. GM Εκτιμητές Welsch Η κεντρική ιδέα των εκτιμητών GM είναι ο περιορισμός της συνάρτησης επίδρασης. Αυτό επιτυγχάνεται με μεγαλύτερη ελάφρυνση στα x έκτοπα, δηλαδή η προσέλκυση των έκτοπων σημείων είναι μεγαλύτερη στα x. Ο πιο δημοφιλής αλγόριθμος υπολογισμού του GM είναι ο Iteratively Reweighted Least Squares, (IRLS) Σύνοψη Αλγόριθμου IRLS 1. Αρχική εκτίμηση των παραμέτρων του μοντέλου παλινδρόμησης, ˆβ, με ελάχιστα τετράγωνα. 2. Υπολογισμός βαρών. 3. Υπολογισμός της ζυγισμένης μέσης τιμής και του αντίστοιχου πίνακα συνδιακύμανσης. 4. Ο συντελεστής διεύθυνσης του μοντέλου παλινδρόμησης να είναι το ιδιοδιάνυσμα με την ελάχιστη ιδιοτιμή του πίνακα συνδιακύμανσης. 5. Ο σταθερός όρος του μοντέλου παλινδρόμησης να είναι ίσος με το ανάστροφο συντελεστή διεύθυνσης που υπολογίστηκε στο παραπάνω βήμα επί την ζυγισμένη μέση τιμή. 6. Επανάληψη των βημάτων 2-5 μέχρι σύγκλισης του ˆβ. Εδώ πρέπει να σημειωθεί ότι οι M και GM εκτιμητές έχουν περισσότερο ιστορική αξία διότι έχουν σχεδόν μηδενικό σημείο κατάρρευσης. Οι πιο μοντέρνοι ανθεκτικοί εκτιμητές είναι αυτοί του υψηλού σημείου κατάρρευσης (LTS,MM). Εκτιμητές Υψηλού Σημείου Κατάρευσης LTS του Rousseeuw και MM του Yohai. Διαγράφονται οι παρατηρήσεις που αντιστοιχούν σε έκτοπα Ελάχιστα Αποκομμένα Τετράγωνα (LTS) Ο εκτιμητής LTS ανήκει στην οικογένεια εκτιμητών μισού δείγματος. Ουσιαστικά προσπαθεί να βρει το 50% των καλύτερων παρατηρήσεων που έχουν το ελάχιστο τετραγωνικό σφάλμα. Είναι πρόβλημα συνδυαστικής και μειονεκτεί ιδιαίτερα σε προβλήματα μεγάλης διάστασης.
Σύνοψη Αλγόριθμου LTS 1. Ξεκινά με ένα μεγάλο πλήθος μικρών υποσυνόλων p + 1 παρατηρήσεων. 2. Εφαρμόζει τα ελάχιστα τετράγωνα. 3. Βάζει σε αύξουσα σειρά τα κατάλοιπα (κριτήριο μεγέθους καταλοίπων). 4. Στην συνέχεια εισάγει νέες παρατηρήσεις ώσπου να φτάσει στο 50% της κάλυψης. 5. Επιλέγεται η καλύτερη λύση που προκύπτει Ο αλγόριθμος του LTS δεν βρίσκει το ολικό βέλτιστο, βρίσκει ένα τοπικό βέλτιστο με την πεποίθηση ότι αυτό βρίσκεται κοντά στο ολικό. Χάνει αποτελεσματικότητα γιατί εκ των προτέρων το ποσοστό επικάλυψης είναι 50% (αυτό γιατί θέλει να πετύχει μέγιστη υψηλή κατάρρευση) το πραγματικό όμως συνήθως ποσοστό των έκτοπων σε ένα σύνολο δεδομένων είναι συνήθως 10% με 20%. Επιπροσθέτως είναι μια αρκετά χρονοβόρα διαδικασία γι αυτό το λόγο προτάθηκε το Fast-LTS. Το οποίο με την σειρά του βελτιώνει τον χρόνο του LTS όμως εξακολουθεί να είναι ακατάλληλο για προβλήματα με n > 1000 και p > 500, επιπλέον εξακολουθεί να έχει τα ίδια προβλήματα στην αποτελεσματικότητα εξαιτίας του ποσοστού επικάλυψης το οποίο πρέπει να είναι στο 50%. Εκτιμητές (MM) Ο Yohai (1987) παρουσίασε μια κλάση εκτιμητών, τους ΜΜ-εκτιμητές, οι ο- ποίοι συνδυάζουν υψηλό σημείο κατάρρευσης και υψηλή αποτελεσματικότητα όταν τα σφάλματα προέρχονται από κανονική κατανομή (Tatsuoka and Tyler (2000)) Σύνοψη Αλγόριθμου MM Υπολογίζεται ένας αρχικός εκτιμητής παλινδρόμησης T 0 του β ο οποίος προκύπτει από τον εκτιμητή του LTS Στην συνέχεια υπολογίζονται τα κατάλοιπα και ύστερα υπολογίζεται ο MMεκτιμητής κλίμακας Εξαιτίας της εξάρτησης του από τον εκτιμητή LTS στην κλίμακα σ και οι εκτιμητές MM έχουν πρόβλημα αποτελεσματικότητας. Ολοι οι παραπάνω αλγόριθμοι αλλά και αρκετοί άλλοι με παρόμοια συλλογιστική έχουν σοβαρό μειονέκτημα ότι ξεκινούν με μια αρχική λύση. Αυτό έχει σαν αποτέλεσμα την μείωση της ανθεκτικότητας.
1.4 Ανθεκτική Διαδικασία με Μαθηματικό Προγραμματισμό Η τεχνική του Μαθηματικού προγραμματισμού στην στατιστική είναι ένα πολύ χρήσιμο εργαλείο διότι: Μας επιτρέπει να κάνουμε εκτιμήσεις σε προβλήμτα θέσης, παλινδρόμησης και εντοπισμού έκτοπων χωρίς την χρήση αρχικής τιμής. Μας επιτρέπει να εισάγουμε νέους περιορισμούς και συνθήκες στην αντικειμενική μας συνάρτηση εξαιτίας της δομής του. Διάφορες τέτοιες τεχνικές έχουν χρησιμοποιηθεί μέχρι σήμερα, όπως: οι Charnes et al. (1955) εναλλακτική της μεθόδου των ελαχίστων τετραγώνων, Barrodale and Roberts (1973) για την MINMAD παλινδρόμησης, Armstrong and Frome (1976) για το πρόβλημα προσαρμογής μιας καμπύλης στις απόλυτες αποκλίσεις, ο Snyder (1982) για εντοπισμό έκτοπων στις χρονοσειρές κ.α. Σημαντική είναι η συμβολή των Arthanari and Dodge (1993) στην διερεύνηση εφαρμογής του μαθηματικού προγραμματισμού στους διάφορους ανθεκτικούς εκτιμητές ή προβλήματα βελτιστοποιήσης στην στατιστική. Ορισαν ότι, ένα πρόβλημα μαθηματικού προγραμματισμού γενικά έχει την ακόλουθη δομή: εύρεση κάποιου x για το οποίο f(x ) f(x) για κάθε x F. (1.12) Το σπουδαιότερο συμπέρασμα σε αυτήν την μελέτη είναι ότι πολλά προβλήματα βελτιστοποιήσης στην στατιστική μπορούν να μετασχηματιστούν ως κυρτά προβλήματα μαθηματικού προγραμματισμού. Αυτό είναι πολύ ελπιδοφόρο για τους εκτιμητές γιατί η προσέγγιση αυτή οδηγεί σε μοναδική ολική βέλτιστη λύση. Εκτοτε, μετασχηματίστηκαν αρκετά προβλήματα βελτιστοποίησης στην εκτιμητική ως προβλήματα μαθηματικού προγραμματισμού. 1.5 Νέοι Αλγόριθμοι Η νέα ιδέα των αλγορίθμων της διατριβής αυτής είναι η αντιμετώπιση του προβλήματος της συνδυαστικής που παρουσιάζεται στις ανθεκτικές εκτιμήσεις με γραμμικό προγραμματισμό. Αυτό επιτυγχάνεται με νέα προσέγγιση της αντικειμενικής συνάρτησης του προβλήματος η οποία διαμορφώνεται ως πρόβλημα γραμμικού προγραμματισμού. Με αυτό τον τρόπο κερδίζεται χρόνο επίλυσης αλλά ταυτόχρονα οι προκύπτουσες εκτιμήσεις είναι εξίσου ανταγωνιστικές. Οι ανθεκτικές εκτιμήσεις διατηρούν την ανθεκτικότητα και την αποτελεσματικότητα τους.
1.5.1 Ανθεκτική Εκτίμηση Θέσης (μέση τιμή, διάμεσος) Εκτιμητής Ελάχιστων Αποκομμένων Απολύτων Αποκλίσεων με Γραμμικό Προγραμματισμό LP-LTAD Η εκτίμηση θέσης είναι ένα από τα πιο σημαντικά προβλήματα στην στατιστική. Οπως αναφέρθηκε και πιο πριν μια καλή προσέγγιση είναι η χρησιμοποίηση των ελάχιστων αποκομμένων απολύτων αποκλίσεων (LTAD). Η οποία είναι μέθοδος που χρησιμοποιεί ένα κριτήριο πάνω στα μισά δείγματα, δηλαδή τουλάχιστον οι μισές παρατηρήσεις παίρνουν βάρη που ισούνται με ένα και τα εναπομείναντα σημεία παίρνουν βάρη που ισούνται με μηδέν. Η λύση του παραπάνω συνδυαστικού προβλήματος με μεικτό ακέραιο προγραμματισμό έχει αντικειμενική συνάρτηση: min w i,µ n i=1 w i x i µ 1, Τα μηδέν-ένα βάρη w i υποδεικνύουν εάν μια παρατήρηση i είναι έκτοπο ή καλή παρατήρηση. Αυτή όμως η συνάρτηση βάρους μπορεί με δυσκολία να ανιχνεύσει μεσαία έκτοπα. Αν σε αυτά τα έκτοπα δεν γίνει ελάφρυνση, τότε θα παίρνουν τα ίδια βάρη όπως τα υπόλοιπα κανονικά σημεία και για αυτό το λόγο θα έλκουν τις εκτιμήσεις ώστε να γίνουν επικαλυπτόμενες. Για να αντιμετωπιστεί η επίδραση των επικαλυπτόμενων έκτοπων, μελετάται μια νέα αποκομμένη διαδικασία, η οποία βασίζεται σε ένα ειδικό γραμμικό πρόγραμμα. Μεγάλες αποκλίσεις παίρνουν μηδέν βάρη μειώνοντας τις παρατηρήσεις x i, το οποίο είναι πιθανόν μόνο στην περίπτωση που η τοπική εκτίμηση είναι μηδέν, η αντικειμενική συνάρτηση της νέας αυτής προσέγγισης είναι: min w,µ n i=1 w ix i µ 1. Στην γενική περίπτωση η νέα διαδικασία μετασχηματίζει τα δεδομένα έτσι ώστε η εκτίμηση θέσης να είναι μηδέν. Η νέα αυτή ιδέα μπορεί να μειώσει την κάλυψη των παρατηρήσεων του δείγματος, με αποτέλεσμα τον εντοπισμό των μεσαίων έκτοπων. Αναπτύχθηκαν γρήγορες αριθμητικές μέθοδοι για την λύση μεγάλων προβλημάτων. Επίσης αποδείχτηκαν ελκυστικές ιδιότητες του νέου εκτιμητή σε όρους ανθεκτικότητας και αποδοτικότητας. Διενεργήθηκαν πειράματα για την επίδειξη των ιδιοτήτων και τον υπολογισμό του LTAD. 1.5.2 Ανθεκτική Εκτίμηση Συνδιακύμανσης Εκτιμητής Ελάχιστων Αποκομμένων Ευκλείδειων Αποκλίσεων LTED Οι κλασικές μέθοδοι για την εκτίμηση της πολυμεταβλήτης θέσης µ και του πίνακα διασποράς Σ βασίζονται στην απλή δειγματική μέση τιμή και τον απλό
πίνακα συνδιακύμανσης, οι οποίες είναι όμως ευαίσθητες σε έκτοπες παρατηρήσεις. Ο εντοπισμός των έκτοπων σε ένα πολυδιάστατο σύννεφο σημείων δεν είναι εύκολη υπόθεση, ειδικά όταν υπάρχουν αρκετά καλυπτόμενα έκτοπα. Ο εκτιμητής του MCD όπως αναφέρθηκε και πιο πριν δεν δίνει τελική βέλτιστη λύση διότι οι αρχικές του λύσεις επηρεάζονται από τα καλυπτόμενα έκτοπα. Για την αποφυγή της παραπάνω επίδρασης προτείνεται μια νέα ιδέα η οποία: i) Κάνει αρχικά ανίχνευση έκτοπων θέσης με τον αλγόριθμο του LTAD και ειδικότερα του LTED (Εκτιμητής Ελάχιστων Αποκομμένων Ευκλείδειων Αποκλίσεων) για πολυμεταβλητά προβλήματα με κριτήριο: µ LT ED = του καλυπτόμενου h υποσυνόλου. h i x i h ii) Στην συνέχεια κάνει ανίχνευση έκτοπων συνδιακύμανσης με κριτήριο την Mahalanobis-απόσταση: D 2 i = (x i µ) T Σ 1 (x i µ) Συνοπτικά ο νέος αλγόριθμος αποτελείται από δύο στάδια: 1. Στο πρώτο στάδιο ένα πολυμεταβλητό L 1 κέντρο διαμέσου µ εκτιμάται αφού πρώτα απομακρυνθούν τα πιθανά έκτοπα. 2. Στο δεύτερο στάδιο εφαρμόζεται το συγκεντρωτικό βήμα της MCD διαδικασίας στο επικαλυπτόμενο σύνολο δεδομένων που έχει προκύψει από το πρώτο στάδιο με σκοπό τον εντοπισμό των παρατηρήσεων που καταστρέφουν την δομή συσχέτισης των μεταβλητών. Το υποσύνολο που προκύπτει από το LTED διαχωρίζεται από το σύνολο όλων των δεδομένων με ένα ελλειψοειδές. Επιπροσθέτως, εφαρμόζοντας μόνο το πρώτο στάδιο της νέας διαδικασίας του LTED είναι από μόνη της ικανή για τον εντοπισμό των έκτοπων σε πολυμεταβλητά δεδομένα όπου ο αριθμός των μεταβλητών είναι μεγαλύτερος του αριθμού των παρατηρήσεων. 1.5.3 Ανθεκτική Εκτίμηση Παλινδρόμησης Penalized Trimmed Square-LTED (PTS-L) Συνήθως, στα μοντέλα παλινδρόμησης, τα δεδομένα είναι μολυσμένα με έκτοπες παρατηρήσεις. Γι αυτό τον λόγο τα τελευταία 30 χρόνια έχουν αναπτυχθεί ανθεκτικά μοντέλα παλινδρόμησης. Ενας πολύ γνωστός τέτοιος εκτιμητής είναι ο Penalized Trimmed Square (PTS). Για πρώτη φορά με την βοήθεια του LTED εκτιμητή αναπτύχθηκε ανθεκτική μεθοδολογία για την εκτίμηση σημείων μόχλευσης. Εκτεταμένες υπολογιστικές προσομοιώσεις Monte-Carlo, με