ΥΨΗΛΟΥ ΣΗΜΕΙΟΥ ΚΑΤΑΡΡΕΥΣΗΣ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ PENALIZED TRIMMED SQUARES

Σχετικά έγγραφα
ΜΙΑ ΜΕΘΟΔΟΣ ΤΙΜΩΡΙΑΣ ΓΙΑ ΤΗΝ ΑΠΟΡΡΙΨΗ ΑΚΡΑΙΩΝ ΤΙΜΩΝ ΣΤΗΝ ΑΝΘΕΚΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΣΦΑΛΙΣΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Εξετάσεις περιόδου στο μάθημα ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Απλή Παλινδρόμηση και Συσχέτιση

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΔΙΑΛΕΞΗ 5: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΟΙΚΟΝΟΜΕΤΡΙΑ (Ι)

Y Y ... y nx1. nx1

7.1.1 Η Μέθοδος των Ελαχίστων Τετραγώνων

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 3 ΔΕΣΜΕΥΜΕΝΗ ΠΙΘΑΝΟΤΗΤΑ, ΟΛΙΚΗ ΠΙΘΑΝΟΤΗΤΑ ΘΕΩΡΗΜΑ BAYES, ΑΝΕΞΑΡΤΗΣΙΑ ΚΑΙ ΣΥΝΑΦΕΙΣ ΕΝΝΟΙΕΣ 71

Εισόδημα Κατανάλωση

x y max(x))

ΘΕΩΡΙΑ ΟΙΚΟΝΟΜΕΤΡΙΑΣ ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ

Οικονομετρία Ι. Ενότητα 2: Ανάλυση Παλινδρόμησης. Δρ. Χαϊδώ Δριτσάκη Τμήμα Λογιστικής & Χρηματοοικονομικής

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Στατιστική Συμπερασματολογία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ ΠΙΘΑΝΟΤΗΤΕΣ 13 ΚΕΦΑΛΑΙΟ 1 ΕΙΣΑΓΩΓΗ 15 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 19

9. Παλινδρόμηση και Συσχέτιση

ΟΙΚΟΝΟΜΕΤΡΙΑ Κεφάλαιο 2

ΑΝΙΧΝΕΥΣΗ ΕΚΤΟΠΩΝ ΜΕΤΡΗΣΕΩΝ, ΙΑΓΝΩΣΤΙΚΗ ΚΑΙ ΑΝΘΕΚΤΙΚΗ ΕΚΤΙΜΗΣΗ: ΑΝΑΣΚΟΠΗΣΗ

Χ. Εμμανουηλίδης, 1

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 3η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

Εφαρμοσμένη Στατιστική

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ στη Ναυτιλία και τις Μεταφορές

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΚΕΦΑΛΑΙΟ 0. Απλή Γραμμική Παλινδρόμηση. Ένα Πρόβλημα. Η επιδιωκόμενη ιδιότητα. Ένα χρήσιμο γράφημα. Οι υπολογισμοί. Η μέθοδος ελαχίστων τετραγώνων ...

Πολλαπλή παλινδρόμηση (Multivariate regression)

TMHMA OIKONOMIKΩN ΕΠΙΣΤΗΜΩΝ Διαγώνισμα Προόδου Στατιστικής III

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διαχείριση Υδατικών Πόρων

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Οικονομετρία Διάλεξη 2η: Απλή Γραμμική Παλινδρόμηση. Διδάσκουσα: Κοντογιάννη Αριστούλα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Ελένη Κανδηλώρου Αναπλ. Καθηγήτρια. Γραμμικά Μοντέλα. Λύσεις Ασκήσεων

Κεφ. Ιο ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΘΕΩΡΙΑΣ ΠΙΘΑΝΟΤΗΤΩΝ

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

5. ΣΥΣΤΗΜΑΤΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Systematic Sampling)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΠΕΡΙΕΧΟΜΕΝΑ ΠΡΟΛΟΓΟΣ 7. ΚΕΦΑΛΑΙΟ 1: Εισαγωγικές Έννοιες 13

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Σημειακή εκτίμηση και εκτίμηση με διάστημα. 11 η Διάλεξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 8ο

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Μέρος II. Στατιστική Συμπερασματολογία (Inferential Statistics)

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Διάλεξη 1: Στατιστική Συμπερασματολογία - Εκτίμηση Σημείου

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

3. ΣΕΙΡΙΑΚΟΣ ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ

ΝΕΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΧΕΤΙΚΑ ΜΕ ΤΗΝ ΥΠΑΡΞΗ ΕΚΤΙΜΗΤΩΝ ΜΕΓΙΣΤΗΣ ΠΙΘΑΝΟΦΑΝΕΙΑΣ ΓΙΑ ΤΗΝ 3-ΠΑΡΑΜΕΤΡΙΚΗ ΓΑΜΜΑ ΚΑΤΑΝΟΜΗ

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

Ανάλυση διακύμανσης (Μέρος 1 ο ) 17/3/2017

Λέξεις Κλειδιά: Γεωγραφικά Σταθμισμένη Παλινδρόμηση (GWR), Γονιμότητα

Απλή Γραμμική Παλινδρόμηση II

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Στατιστικός έλεγχος υποθέσεων (Μέρος 1 ο )

ΟΙΚΟΝΟΜΕΤΡΙΑ Ι ΦΥΛΛΑΔΙΟ

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

3. ΣΤΡΩΜΑΤΟΠΟΙΗΜΕΝΗ ΤΥΧΑΙΑ ΔΕΙΓΜΑΤΟΛΗΨΙΑ (Stratified Random Sampling)

Διάστημα εμπιστοσύνης της μέσης τιμής

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχανικών Χωροταξίας, Πολεοδομίας & Περιφερειακής Ανάπτυξης

Εισαγωγή στην Γραμμική Παλινδρόμηση

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

8.1 The Nature of Heteroskedasticity 8.2 Using the Least Squares Estimator 8.3 The Generalized Least Squares Estimator 8.

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΕΦΑΡΜΟΣΜΕΝΗ ΑΝΑΛΥΣΗ ΠΑΛΙΝΔΡΟΜΗΣΗΣ ΚΑΙ ΔΙΑΣΠΟΡΑΣ (ΝΠΣ) & ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ (ΠΠΣ) (6o Εξάμηνο Μαθηματικών) Ιανουάριος 2008

5. Έλεγχοι Υποθέσεων

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΗ ΣΤΑΤΙΣΤΙΚΗ ΙΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ, ΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Διαστήματα εμπιστοσύνης. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

ΔΙΕΡΕΥΝΗΣΗ ΤΗΣ ΕΠΙΔΡΑΣΕΩΣ ΜΕΘΟΔΩΝ ΕΡΓΑΣΙΑΣ ΣΤΗΝ ΠΑΡΑΓΩΓΙΚΟΤΗΤΑ ΕΛΛΗΝΙΚΗΣ ΒΙΟΤΕΧΝΙΑΣ ΠΑΡΑΓΩΓΗΣ ΠΑΙΔΙΚΩΝ ΕΝΔΥΜΑΤΩΝ

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

Στατιστική. Ανάλυση ιασποράς με ένα Παράγοντα. One-Way Anova. 8.2 Προϋποθέσεις για την εφαρμογή της Ανάλυσης ιασποράς

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ

Απλή Γραμμική Παλινδρόμηση I

Επαυξημένος έλεγχος Dickey - Fuller (ADF)

Εφαρμοσμένη Στατιστική

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ ΚΑΤΑ ΔΥΟ ΚΡΙΤΗΡΙΑ

Εκτιμητές Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimators MLE)

2.5 ΕΛΕΓΧΟΣ ΠΟΣΟΣΤΙΑΙΩΝ ΣΗΜΕΙΩΝ ΜΙΑΣ ΚΑΤΑΝΟΜΗΣ (The Quantile Test)

ΠΡΟΤΑΣΗ ΟΜΑΔΑΣ ΕΡΓΑΣΙΑΣ ΠΕΔΜΕΔΕ ΣΑΤΕ ΓΙΑ ΤΟΝ ΠΡΟΣΔΙΟΡΙΣΜΟ ΑΣΥΝΗΘΙΣΤΑ ΧΑΜΗΛΩΝ ΠΡΟΣΦΟΡΩΝ (ΑΧΠ)

Μοντέλα Παλινδρόμησης. Άγγελος Μάρκος, Λέκτορας ΠΤ Ε, ΠΘ

Transcript:

Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 0 ου Πανελληνίου Συνεδρίου Στατιστικής (007), σελ 69-78 ΥΨΗΛΟΥ ΣΗΜΕΙΟΥ ΚΑΤΑΡΡΕΥΣΗΣ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ PENALIZED TRIMMED SQUARES Αντώνης Αβραμίδης και Γιώργος Ζιούτας Γενικό Τμήμα Πολυτεχνικής Σχολής Α.Π.Θ. aavram@gen.auth.gr ΠΕΡΙΛΗΨΗ Η εκτίμηση στην πολλαπλή γραμμική παλινδρόμηση αποτελεί ένα δύσκολο πρόβλημα εξαιτίας του φαινομένου της επικάλυψης (maskng effect) των ακραίων παρατηρήσεων (outlers). Η εκτιμήτρια PTS (Penalzed Trmmed Squares) των αγνώστων παραμέτρων β της παλινδρόμησης βασίζεται στην εισαγωγή κόστους τιμωρίας (penalty cost) στην συνάρτηση αποκοπής. Συνδυάζει την υψηλή ανθεκτικότητα και αποτελεσματικότητα της εκτιμήτριας. Στην παρούσα εργασία, η διαδικασία του εκτιμητή PTS ολοκληρώνεται σε δύο φάσεις. Η πρώτη φάση αφιερώνεται για υψηλή ανθεκτικότητα, όπου επιλέγονται μικρά κόστη τιμωρίας για διευκόλυνση της απόρριψης των ακραίων παρατηρήσεων. Αυτό επιτυγχάνεται με την μικρότερη δυνατή κλίμακα των καταλοίπων της παλινδρόμησης και έντονη ελάφρυνση των πολλαπλών σημείων υψηλής επίδρασης (multple hgh leverage ponts). Η δεύτερη φάση ξεκινά με το καθαρό δείγμα που προέκυψε από την πρώτη φάση και επανεξετάζει με τη χρήση των τυποποιημένων υπολοίπων την είσοδο κάποιων καλών απορριπτέων παρατηρήσεων προκειμένου να αυξηθεί η αποτελεσματικότητα της προτεινόμενης εκτιμήτριας PTS. 1. ΕΙΣΑΓΩΓΗ Θεωρούμε το μοντέλο γραμμικής παλινδρόμησης με p ανεξάρτητες μεταβλητές y = Xβ + u (1) ) όπου y = ( y 1, y,..., y Τ n είναι το nx1 διάνυσμα της εξαρτημένης μεταβλητής, Τ Τ Τ ( 1 X= x, x,..., x n ) Τ ο nxp πίνακας των p ανεξάρτητων μεταβλητών, ( 1,,..., p ) β = β β β Τ το px1 διάνυσμα των αγνώστων παραμέτρων και ( u 1 u u =,,..., u n ) Τ το διάνυσμα των τυχαίων σφαλμάτων με μέση τιμή μηδέν και διακύμανση σ (όταν στο μοντέλο περιέχεται σταθερός όρος θέτουμε στον πίνακα Χ την τελευταία στήλη ίση με 1). Ως γνωστό, η εκτιμήτρια ελαχίστων τετραγώνων του Τ 1 β, ˆ=( ) Τ β Χ Χ Χ y, δεν ικανοποιεί τις προϋποθέσεις της ανθεκτικότητας, αφού αρκεί μία μόνο ακραία παρατήρηση για να καταστρέψει την εκτιμήτρια. Το διάνυσμα των εκτιμόμενων τιμών δίνεται από την σχέση yˆ = Χβˆ = Ηy ενώ των υπολοίπων από την - 69 -

uˆ = y Xβˆ = ( Ι Η) y, όπου H X ΧΧ Τ 1 = ( ) Τ Χ. Το μέσο τετραγωνικό σφάλμα των T υπολοίπων δίνεται από την ˆ σ = SSE/(n-p), όπου SSE = uu ˆ ˆ το άθροισμα τετραγώνων των υπολοίπων. Αφαιρώντας την παρατήρηση από το δείγμα, το άθροισμα των τετραγώνων των υπολοίπων μειώνεται κατά SSE SSE = u /(1 h) () όπου το () h (0 < < 1) μετράει τη μοχλότητα (leverage) της παρατήρησης και h T T 1 δίνεται από τα διαγώνια στοιχεία του πίνακα Η, h = x ( X X) x. Από την () είναι φανερό ότι η διαγραφή μίας παρατήρησης με υψηλή επίδραση (μεγάλο ) οδηγεί σε μείωση του SSE πολύ μεγαλύτερη από.. Η ΑΝΤΙΚΕΙΜΕΝΙΚΗ ΣΥΝΑΡΤΗΣΗ PTS u Οι περισσότερες ανθεκτικές μέθοδοι στηρίζονται στην εύρεση μιας υποομάδας των αρχικών δεδομένων η οποία αποτελείται από καθαρές παρατηρήσεις και στη συνέχεια στον έλεγχο των υπολοίπων σημείων με βάση την ομάδα αυτή. Η εκτιμήτρια PTS όπως έχει οριστεί από τους Zoutas, Avramds and Ptsouls (007), ελαχιστοποιεί το άθροισμα των k τετραγωνικών υπολοίπων των καθαρών δεδομένων, (το k δε δίνεται εξ αρχής), και το άθροισμα του κόστους τιμωρίας για τη διαγραφή των υπόλοιπων n-k παρατηρήσεων k n ελαχιστοποίηση S ( ) ( ) ( ) ( ˆ ) n β = Sk β + Sn k β = u 1 + c k 1 σ = = +, k. (3) β Στην παραπάνω αντικειμενική συνάρτηση, το μέγεθος k της ομάδας των καθαρών δεδομένων είναι άγνωστο ενώ η παράμετρος σ είναι μία ανθεκτική εκτιμήτρια κλίμακας των υπολοίπων από τη μέθοδο LTS (Least Trmmed Squares), Rousseeuw and Leroy (1987) ή τη μέθοδο LMS (Least Medan Squares), Rousseeuw (1984) ή τη μέθοδο MM (Modfed Maxmum lkelhood estmator), Yoha (1987). Η ποσότητα ( cσ ˆ ) η οποία καθορίζει το κόστος τιμωρίας για την απομάκρυνση της παρατήρησης και η οποία ορίζεται εξ αρχής, ρυθμίζει την ανθεκτικότητα και την αποτελεσματικότητα της μεθόδου και η σημασία της επιλογής της αναλύεται παρακάτω..1 1 η φάση PTS Το κλειδί της επιτυχίας της εκτιμήτριας PTS είναι η χρησιμοποίηση μιας ανθεκτικής κλίμακας ˆ σ. Η ανθεκτικότητα της μεθόδου PTS βασίζεται στην ελαχιστοποίηση της ανθεκτικής κλίμακας ˆ σ, διαφορετικά το κόστος τιμωρίας ( cσ ˆ ) αυξάνεται τόσο ώστε οι μικρές σχετικά ακραίες παρατηρήσεις δεν μπορούν να απομακρυνθούν από το σύνολο των δεδομένων. Από τις διάφορες αμερόληπτες εκτιμήτριες του ˆ σ (όπως ˆ σ LMS, ˆ σ LTS, ˆ σ MM κλπ), προτιμούμε τη μικρότερη η οποία μπορεί να είναι η ˆ σ LTS. Ο λόγος της συγκεκριμένης επιλογής είναι ότι η εκτιμήτρια ˆ σ LMS θεωρείται κατώτερη για τον προσδιορισμό του εύρους των υπολοίπων της παλινδρόμησης στο σύνολο των καθαρών δεδομένων, με την έννοια ότι στην - 70 - h

περίπτωση της μόλυνσης της τάξης του 49% με μεγάλα σφάλματα στα αρχικά δεδομένα, η εκτιμήτρια σ πιθανό να εντάξει το μεγαλύτερο υπόλοιπο των ˆ LMS καθαρών δεδομένων στην εκτίμηση, επομένως το διάστημα ( 3 ˆ σ, 3ˆ σ ) - 71 - + είναι πιθανό να περιέχει ακραίες παρατηρήσεις. Η διαδικασία της εύρεσης της ανθεκτικής παραμέτρου κλίμακας χωρίζεται σε δύο φάσεις. Στην πρώτη φάση, τα δεδομένα χωρίζονται σε μια ομάδα από k καθαρά σημεία και σε μια άλλη από n-k τα οποία περιέχουν τα πιθανά ακραία σημεία. Προσαρμόζοντας το μοντέλο παλινδρόμησης στα k σημεία, η αρχική ανθεκτική εκτιμήτρια κλίμακας ˆ σ k υπολογίζεται από τα υπόλοιπα. Στη δεύτερη φάση, βελτιώνουμε την αποτελεσματικότητα της εκτιμήτριας ˆ σ k από την πρώτη φάση. Όλες οι παρατηρήσεις της ομάδας με τα n-k σημεία ελέγχονται ένα προς ένα χρησιμοποιώντας τα τυποποιημένα εκτιμώμενα υπόλοιπα βασιζόμενοι στο βασικό σύνολο των k σημείων. Οι παρατηρήσεις με μεγάλα τυποποιημένα υπόλοιπα εξαλείφονται, οι υπόλοιπες εισέρχονται στο βασικό υποσύνολο των k καθαρών σημείων. Η τελική εκτιμήτρια κλίμακας των υπολοίπων υπολογίζεται από τη μέθοδο των ελαχίστων τετραγώνων στο τελικό καθαρό δείγμα. Η πιο συχνά χρησιμοποιούμενη ανθεκτική εκτιμήτρια των υπολοίπων, αφού προηγουμένως αφαιρεθούν n-k σημεία ως οι πιθανές ακραίες παρατηρήσεις, είναι η ˆk σ που προκύπτει από το μοντέλο παλινδρόμησης. Για προκαθορισμένη τιμή του k, το κριτήριο της μεθόδου LTS υποδεικνύει ότι τα n-k σημεία που θα διαγραφούν είναι εκείνα τα οποία ελαχιστοποιούν το άθροισμα τετραγώνων των υπολοίπων της παλινδρόμησης στις εναπομείναντες k παρατηρήσεις. Εφόσον ο αριθμός των ακραίων παρατηρήσεων ήταν γνωστός, η ποσότητα n-k θα προέκυπτε από αυτόν. Για την εύρεση της αρχικής ανθεκτικής εκτιμήτριας της διακύμανσης των σφαλμάτων, η τιμή του k είναι περίπου ίση με n ώστε να αυξηθεί η ισχύς της διαδικασίας. Επομένως, αποκόπτοντας τις μισές παρατηρήσεις από το αρχικό δείγμα δηλαδή όλες τις πιθανές ακραίες παρατηρήσεις, η αρχική ανθεκτική εκτιμήτρια των υπολοίπων ˆ σ k υπολογίζεται. Όπως αναφέρουν οι Atknson and Ran (000), η μείωση στο άθροισμα T τετραγώνων των υπολοίπων όταν αφαιρείται μία παρατήρηση ( x, y ), ισούται με το τετράγωνο του προσαρμοσμένου υπόλοιπου, u 1 h LMS LMS, όπου h, (0 < h < 1) μετρά την T T 1 επίδραση της παρατήρησης, h = x ( X X) x. Η γενική αρχή της εκτιμήτριας PTS είναι να διαγράφει μία παρατήρηση εάν η μείωση στο άθροισμα τετραγώνων των υπολοίπων είναι μεγαλύτερη από το αντίστοιχο κόστος τιμωρίας u (1 ) ( ˆ h > cσ ), Zoutas, Avramds and Ptsouls (007). Επομένως, στη λύση του προβλήματος ελαχιστοποίησης (3), κάθε υπόλοιπο στο τελικό σύνολο δεδομένων έχει άνω φράγμα u < c ˆ σ 1 h, 0 k. Όπως όμως είναι γνωστό, η επίδραση διαστρεβλώνεται από την παρουσία ομάδας σημείων καθένα από τα οποία ξεχωριστά εμφανίζει μικρή επίδραση, συνολικά όμως δημιουργούν ομάδα με μεγάλη επίδραση. Οι Pena and h

Yoha (1995) τονίζουν ότι η επίδραση h μιας ακραίας παρατήρησης μπορεί να είναι μικρή ενώ και το τελικό υπόλοιπο u είναι δυνατό να εμφανίζεται κοντά στο 0, το οποίο είναι γνωστό ως το πρόβλημα της επικάλυψης. Σε μια ομάδα από παρόμοια ακραία σημεία υψηλής επίδρασης, η επίδραση κάθε τέτοιου σημείου επικαλύπτεται. Πιο αναλυτικά, για την επίδραση h του σημείου ισχύει h << 1, οπότε η μείωση στο άθροισμα των τετραγώνων των υπολοίπων με την απομάκρυνση του σημείου είναι u (1 ) ( ˆ h << cσ ). Ως αποτέλεσμα, το επικαλυπτόμενο ακραίο σημείο μεγάλης επίδρασης δε θα απομακρυνθεί από το σύνολο των δεδομένων. Για να ξεπεραστεί το παραπάνω πρόβλημα, προτείνουμε την εισαγωγή των βαρών σχεδιασμού { h } w = mn 1, 1, = 1,..., n, (4) όπου T T 1 = x ( X X ) x, = k+ 1,..., n, είναι η ανθεκτική επίδραση κάθε πιθανού h k + 1 k + 1 T y ακραίου σημείου ( x, ) καθώς εισέρχεται στο υποσύνολο των καθαρών δεδομένων το οποίο προκύπτει για παράδειγμα από τη μέθοδο MCD (Mnmum Covarance k = ( n+ p)/. Determnant) των Rousseeuw and Van Dressen (1999) με κάλυψη [ ] Επομένως, τα ελαφρούμενα υπόλοιπα για τις παρατηρήσεις στο τελικό σύνολο μεγέθους k υπολογίζονται από την u < c ˆ σ 1 h, = 1,..., k. (5) Πρέπει να τονιστεί στο σημείο αυτό ότι επειδή τα ακραία σημεία υψηλής επίδρασης έχουν απομακρυνθεί από τον πίνακα, ο οποίος αποτελείται από καθαρά σημεία, με τη μέθοδο MCD, οι νέες επιδράσεις των επικαλυπτόμενων σημείων θα έχουν πολύ μεγαλύτερες τιμές από τις αρχικές επιδράσεις. Ως συνέπεια, τα βάρη σχεδιασμού 1 h X k h είναι μικρά, τα κόστη τιμωρίας cσ ˆ ελαφρύνονται από την ποσότητα h ( c ˆ σ ) και οι επικαλυπτόμενες ακραίες παρατηρήσεις διαγράφονται 1 εκτός αν τα υπόλοιπά τους είναι μικρά, δηλαδή αν u < 1 h ( c ˆ σ ). Να σημειωθεί εδώ ότι τα βάρη σχεδιασμού ( ) h w x = 1 h για το άνω φράγμα cσ ˆ των υπολοίπων, εξαρτώνται μόνο από τις συντεταγμένες των ανεξάρτητων μεταβλητών. Η εκτιμήτρια PTS ορίζεται από την επίλυση του προβλήματος (3). Χρησιμοποιώντας φόρμουλα μικτού ακέραιου τετραγωνικού προγραμματισμού QMIP (Quadratc Mxed Integer Programmng), οι Zoutas and Avramds (005), Zoutas, Avramds and Ptsouls (007), πρότειναν την ελαχιστοποίηση της αντικειμενικής συνάρτησης n (u ( ) 1 1,,,, + δ cσ ) = β β u ε δ ελαχιστοποίηση (6) - 7 -

T T x β1 x β + u y ε T T x β1 x β u y + ε σύμφωνα με τους περιορισμούς ε δ M δ :(0, 1) μεταβλητή β1, β, u, ε 0 για = 1,..., n όπου δ είναι (0,1) μεταβλητή και υποδεικνύει ποιες παρατηρήσεις πρέπει να διαγραφούν, ε η απόσταση προσέλκυσης μιας ακραίας παρατήρησης προς τη εκτιμώμενη γραμμή παλινδρόμησης και M ένα άνω φράγμα για τα υπόλοιπα. Η εκτιμήτρια PTS δίνει ένα βάρος σχεδιασμού για το μέγιστο επιτρεπτό υπόλοιπο. Το σχήμα ελάφρυνσης αυτό με τις ανθεκτικές επιδράσεις h προσδίδει την ιδιότητα της περιορισμένης επίδρασης στην εκτιμήτρια. Χρησιμοποιώντας τα βάρη σχεδιασμού της σχέσης (4) για τα κόστη τιμωρίας, η εκτιμήτρια PTS ταυτίζεται με την εκτιμήτρια των ελαχίστων τετραγώνων στο τελικό υποσύνολο των k δεδομένων, όπου όλα τα υπόλοιπα έχουν άνω φράγμα όπως στη σχέση (5).. η φάση PTS Ακολουθώντας την πρόταση του Rousseeuw (1984), η αρχική ανθεκτική εκτιμήτρια των υπολοίπων ˆ σ k πρέπει να γίνει συνεπής στο αρχικό δείγμα μεγέθους n με σκοπό την αύξηση της αποτελεσματικότητας της εκτιμήτριας ˆβ, Pena and Yoha (1999). Αυτό επιτυγχάνεται με τον έλεγχο μίας προς μίας των αρχικά υποδεικνυόμενων απομακρυσμένων n-k παρατηρήσεων με σκοπό την επανένταξη των καθαρών σημείων στην καθαρή ομάδα μεγέθους k, όπως έχουν προτείνει και οι Had and Smonoff (1993), Pena and Yoha (1999). Ο έλεγχος πραγματοποείται χρησιμοποιώντας τα τυποποιημένα εκτιμώμενα υπόλοιπα. Η τελική ανθεκτική εκτιμήτρια των υπολοίπων ˆ σ k υπολογίζεται με τη μέθοδο των ελαχίστων τετραγώνων χρησιμοποιώντας το τελικό και καθαρό από ακραίες παρατηρήσεις δείγμα. Πιο αναλυτικά, υπολογίζουμε τα υπόλοιπα των σημείων, βασιζόμενοι στο υποσύνολο των k καθαρών δεδομένων ˆ T e = y β ( k) x, = k + 1,..., n, την αρχική PTS εκτιμήτρια κλίμακας των υπολοίπων ˆ σ k των e, = 1,..., k και τα τυποποιημένα ˆ T y βpts ( k) x υπόλοιπα t =, = k + 1,..., n, όπου T T 1 h = x [ X k X k ] x. Όταν ˆ σ 1+ h k ισχύουν οι υποθέσεις της κανονικότητας των υπολοίπων, τα - 73 - t ακολουθούν την T Student s t κατανομή με k βαθμούς ελευθερίας. Επομένως, η παρατήρηση ( x, y ), = k + 1,..., n επανέρχεται στο υποσύνολο των καθαρών δεδομένων εάν t t α, k. Από το τελικό καθαρό υποσύνολο, υπολογίζουμε την επιθυμητή εκτιμήτρια κλίμακας ˆ σ LTS. Ως κρίσιμη τιμή t α,k λαμβάνεται μια σχετικά μικρή τιμή ώστε να αυξηθεί η

ισχύς της διαδικασίας και αποκτώντας όσο το δυνατό μικρότερη εκτιμήτρια κλίμακας σ. Για μικρού μεγέθους δείγματα, έχουμε διαπιστώσει ότι η τιμή t α, = ˆ LTS λειτουργεί ικανοποιητικά. Για μεγαλύτερου μεγέθους δείγματα, προτείνεται η αύξηση της κρίσιμης τιμής. Παρατήρηση. Στην περίπτωση ενός αρχικού δείγματος που αποτελείται από καθαρές παρατηρήσεις (μόλυνση 0%) ή σε παρατηρήσεις με συνθήκες κανονικότητας, ξεκινώντας από το βασικό υποσύνολο μεγέθους k, σχεδόν όλες από τις υπόλοιπες n-k παρατηρήσεις αναμένουμε να επανέλθουν στο τελικό σύνολο. Επομένως, η τελική εκτιμήτρια κλίμακας ˆ σ k είναι η επιθυμητή (σχήμα 1α). Από την άλλη πλευρά, στην περίπτωση αρχικού δείγματος με 49% μόλυνση, κατά τη διαδικασία της επανένταξης αναμένουμε να μην εισέλθουν στο βασικό υποσύνολο καμία από τις υπόλοιπες n-k παρατηρήσεις, αφού οι περισσότερες είναι ακραίες παρατηρήσεις με αντίστοιχα μεγάλα υπόλοιπα. Επομένως, η τελική εκτιμήτρια κλίμακας ˆ σ k στηρίζεται στο αρχικό βασικό υποσύνολο μεγέθους k το οποίο πιθανότατα αποτελείται από καθαρές παρατηρήσεις (σχήμα 1β). k 49% ˆk σ 51% ˆk σ k = n k= 51% n 51% n k = 49% n 49% ˆ σ k ˆ σ k 3 ˆ σ k 3 ˆ σ k Σχήμα 1α. k=n καθαρά δεδομένα, ακραίες παρατηρήσεις n-k=0 Σχήμα 1β. k=51%n καθαρά δεδομένα, ακραίες παρατηρήσεις n-k=49%n Το όριο 1 h ( ˆ c σ ) μπορεί να θεωρηθεί ως η ελάφρυνση στον Χ-χώρο, όμως μία παρατήρηση δεν απομακρύνεται αν το υπόλοιπό της είναι σχετικά μικρό. Επομένως, χρησιμοποιώντας την εκτιμήτρια PTS, εάν ένα σημείο υψηλής επίδρασης έχει μικρό υπόλοιπο δε διαγράφεται με συνέπεια να συνεισφέρει θετικά στη προσαρμογή του μοντέλου παλινδρόμησης και επομένως να βελτιώνει την αποτελεσματικότητα της εκτιμήτριας. Παρολαυτά, σύμφωνα με τα αποτελέσματα από τη μέθοδο MCD, κάποια καλά σημεία υψηλής επίδρασης πιθανό να εμφανιστούν επίσης ως ακραίες παρατηρήσεις με υψηλές επιδράσεις και το βάρος σχεδιασμού που προκύπτει w = 1 h να είναι έντονα μικρό. Συνεπώς, για κάποια από τα καλά σημεία υψηλής επίδρασης, το κόστος τιμωρίας πιθανό να είναι πολύ μικρό προκαλώντας την απομάκρυνση από το σύνολο των δεδομένων, εκτός εάν το υπόλοιπό τους είναι μικρό. Αυτό επηρρεάζει την αποτελεσματικότητα της εκτιμήτριας μόνο κατά την πρώτη φάση και διορθώνεται με τον έλεγχο της δεύτερης φάσης της διαδικασίας, όπως περιγράφτηκε παραπάνω, κατά την οποία οι πιθανές h - 74 -

ακραίες παρατηρήσεις ελέγχονται μία προς μία για την επανένταξή τους στο τελικό καθαρό σύνολο των δεδομένων. Συμπερασματικά, βασιζόμενοι σε ανθεκτική εκτιμήτρια κλίμακας ˆ σ και τις επιδράσεις h, η εκτιμήτρια PTS επιτυγχάνει ταυτόχρονα τους τρεις στόχους της ανθεκτικής παλινδρόμησης, σύμφωνα με τους Yoha and Zamar (1988), δηλαδή, (α) υψηλό σημείο κατάρρευσης, (β) περιορισμένη επίδραση, (γ) υψηλή αποτελεσματικότητα (περίπου 0.95) όταν τα δεδομένα ακολουθούν κανονική κατανομή. 3. ΠΑΡΑΔΕΙΓΜΑ Το παράδειγμα που ακολουθεί, περιγράφει ακριβώς τις δύο φάσεις της διαδικασίας PTS. Στον Πίνακα 1 δίνεται ένα δείγμα από 50 παρατηρήσεις με δύο ανεξάρτητες μεταβλητές. Οι ανεξάρτητες μεταβλητές x 1 και x προέρχονται από κανονικές κατανομές με μέσες τιμές 0, 30 και διακυμάνσεις 36, 64 αντίστοιχα. Το μοντέλο που χρησιμοποιήθηκε είναι όπως στην (1) με συντελεστές παλινδρόμησης β 1 = 1.0, β = 0.80, β 0 = 0.0, ενώ το διάνυσμα των σφαλμάτων ακολουθεί κανονική κατανομή με μέση τιμή 0 και διακύμανση 56. Οι ακραίες παρατηρήσεις έχουν παραχθεί προσθέτοντας μία τιμή από την ομοιόμορφη κατανομή U( a= 80, b= 0) στις ανεξάρτητες μεταβλητές ή στην εξαρτημένη. Οι δύο πρώτες στήλες είναι οι ανεξάρτητες μεταβλητές, η 3 η είναι η εξαρτημένη, στην 4 η δίνονται οι η επιδράσεις h στο σύνολο των δεδομένων, στην 5 οι επιδράσεις των n-k παρατηρήσεων καθώς εισέρχονται στο υποσύνολο των k καθαρών δεδομένων, στην 6 η στήλη τα βάρη σχεδιασμού της 1 ης φάσης και στην προτελευταία στήλη τα κόστη τιμωρίας για την απομάκρυνση καθεμιάς παρατήρησης στην αντικειμενική συνάρτηση της 1 η φάσης. Τα σημεία 1-3 και 6-8 είναι καταστροφικά σημεία υψηλής επίδρασης (bad leverage), τα σημεία 4-5 και 9-30 είναι καλά σημεία υψηλής επίδρασης (good leverage), ενώ τα σημεία 15, 0-1, 46-47, 50 είναι ακραία σημεία ως προς την y-κατεύθυνση (y-outlers). Εφαρμόζοντας τη διαδικασία PTS, στην πρώτη φάση παρατηρούμε ότι απομακρύνονται όλα τα bad leverage σημεία όπως επίσης και όλα τα good leverage (τα y-outlers απομακρύνονται κάτι που συμβαίνει με όλες τις ανθεκτικές μεθόδους). Το μοντέλο παλινδρόμησης που προκύπτει είναι το yˆ = 1.66x 0.83x + 9.31. Οι πραγματικές τιμές του β είναι β 1 = 1.0 και 1 β = 0.80, άρα η διαδικασία αποτυγχάνει στην πρώτη φάση ως προς την αποτελεσματικότητα, επιτυγχάνει όμως την αναγνώριση όλων των σημείων υψηλής επίδρασης δείχνοντας ότι αποτελεί εκτιμήτρια υψηλού σημείου κατάρρευσης και ανθεκτικότητας. Στη δεύτερη φάση παρόλαυτά, όπως φαίνεται από την τελευταία στήλη του Πίνακα 1, η διαδικασία του ελέγχου καθενός σημείου ξεχωριστά με το καθαρό υποσύνολο επαναφέρει τα good leverage σημεία, αφού οι τιμές των στατιστικών t της τελευταίας στήλης είναι μικρότερες του, αυξάνοντας έτσι και την αποτελεσματικότητα της εκτιμήτριας. - 75 -

Το τελικό μοντέλο είναι το yˆ = 1.6x1 0.88x 0.8, στο οποίο παρατηρούμε ότι η εκτιμήτρια ˆβ βρίσκεται πολύ κοντά στην πραγματική τιμή του β. ABSTRACT Estmaton n multple lnear regresson s a dffcult problem because of the maskng effect of outlers. The PTS estmator (Penalzed Trmmed Squares) of the unknown parameters β of regresson s based on the nserton of penalty costs n the loss functon. It combnes hgh robustness and effcency of the estmator. In ths work, the procedure of the PTS estmator s mplemented n two stages. The frst stage s dedcated to hgh robustness, where small penalty costs are chosen for the convenence of the reecton of outlers. Ths s acheved by choosng the smallest possble scale estmate of the resduals and strong down weght of multple hgh leverage ponts. The second stage starts wth the clean data set provded by the frst stage and examnes the rencluson of good hgh leverage ponts usng the studentzed resduals n order to mprove the effcency of the proposed PTS estmator. ΑΝΑΦΟΡΕΣ Atknson, A. and Ran, M. (000), Robust Dagnostc Regresson Analyss, John Wley, Berln. Had, A.S. and Smonoff, J.S. (1993), Procedures for the dentfcaton of multple outlers n lnear models, JASA, 88, 164-17. Pena, D. and Yoha, V.J. (1995), The detecton of nfluental subsets n lnear regresson usng an nfluence matrx, J. R. Statst. Soc., 47, 145-156. Pena, D. and Yoha, V.J. (1999), A Fast Procedure for Outler Dagnostcs n Large Regresson Problems, JASA, 94, 434-445. Rousseeuw, P.J. (1984), Least Medan of Squares Regresson, JASA, 79, 871-880. Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regresson and Outler Detecton, Wley: New York. Rousseeuw, P.J. and Van Dressen, K. (1999), A Fast Algorthm for the Mnmum Covarance Determnant Estmator, Technometrcs, 41, 1-3. Yoha, V.J. (1987), Hgh Breakdown-pont and Hgh Effcency Robust Estmates for Regresson, Annals of Statstcs 15, 64-656. Yoha, V.J. and Zamar, R.H. (1988), Hgh Breakdown Pont Estmates of Regresson by Means of the Mnmzaton of an Effcent Scale, JASA, 83, 406-413. Zoutas, G. and Avramds, A. (005), Deletng Outlers n Robust Regresson wth Mxed Integer Programmng, Acta Mathematcae Applcatae Snca, Englsh Seres, 1, 33-334. Zoutas, G., Avramds, A. and Ptsouls, L. (007), Penalzed Trmmed Squares and a Modfcaton of Support Vectors for Unmaskng Outlers n Lnear Regresson, REVSTAT, 5, 115-136. - 76 -

x 1 x Πίνακας 1. Δείγμα με 6 bad leverage, 4 good leverage, 6 y-outlers. y h h w 1 h - 77-3σ 1 t = ( ˆ h ) 156.77 59.30-8.99 0.116 0.889 0.333 68.44-6.4 133.80 5.18 5.99 0.08 0.86 0.416 40.36-5.80 5.53 105.53 3.18 0.084 0.575 0.651 107.54 5. 4.01 56.91 3.54 0.48 0.943 0.37 136.51-1.93 3.01 199.79-161.05 0.364 0.886 0.336 74.3-0.84 9.09 13.94-0.30 0.034 0.000 1.000 40.64 14.15-1.8 -.89 0.047 0.76 0.850 1751.63-1.08 8.34 55.14-50.91 0.08 0.000 1.000 40.64 39.11 15.95 34.91 0.07 0.000 1.000 40.64 11.77 36.3-46.15 0.04 0.000 1.000 40.64 7.54 51.76-47.64 0.08 0.000 1.000 40.64 13.9 41.49-1.09 0.04 0.000 1.000 40.64 19.6 -.10 46.38 0.046 0.60 0.859 1789.8 1.6 11.05 4.68-8.7 0.05 0.000 1.000 40.64 38.48 49.5 313.8 0.01 0.48 0.867 1819.86 17.8 30.75 33.69-3.81 0.00 0.000 1.000 40.64 17.98 38.68-39.6 0.0 0.000 1.000 40.64 4.1 50.43-10.66 0.0 0.000 1.000 40.64.00 14.16 -. 0.037 0.3 0.881 1880.44-0.7 50.7 64.49 311.11 0.08 0.473 0.75 175.01 16.16 15.83 45.55 301.97 0.03 0.000 1.000 40.64 8.04 80.39 -. 0.04 0.441 0.747 1351.69 0.40 0.09 0.4 -.60 0.07 0.000 1.000 40.64.34.71-4.85 0.03 0.000 1.000 40.64 8.97 6.3-4.99 0.08 0.000 1.000 40.64 156.83 5.34 4.71 0.17 0.866 0.365 33.40-5.78 146.48 36.00 3.30 0.096 0.860 0.374 338.73-5.97 40.47 140.47-1.95 0.155 0.795 0.45 495.68 1.7 55.78 7.77 97.6 0.330 0.953 0.15 11.77-1.66 19.0 150.39-109.84 0.185 0.793 0.454 499.89 0.10 9.48 35.89-3.55 0.05 0.000 1.000 40.64 1.96 30.47-36.11 0.030 0.000 1.000 40.64 31.33 17.35 63.07 0.07 0.000 1.000 40.64 15.88 30.86 1.81 0.04 0.000 1.000 40.64 35.47 6.64 9.9 0.0 0.000 1.000 40.64 19.81 3.96 9.8 0.03 0.000 1.000 40.64 11.04 56.7-1.01 0.08 0.000 1.000 40.64 31.51 4.66 33.76 0.03 0.000 1.000 40.64 34.16 5.40.3 0.03 0.000 1.000 40.64 15.09 3.41 9.0 0.041 0.4 0.880 1877.36-0. 15.38 16.44-17.39 0.031 0.000 1.000 40.64 9.41 7.70 7.33 0.0 0.000 1.000 40.64

9.08 39.75 -.0 0.00 0.000 1.000 40.64 1.70 15.14-7.09 0.030 0.000 1.000 40.64 4.08 6.68 6.5 0.04 0.68 0.855 1769.55 0.87 4.76 35.70 334.01 0.00 0.14 0.886 190.03 17.05 -.36-4.75 303.34 0.058 0.41 0.760 1399.0 19.07 8.04 34.75-5.80 0.06 0.000 1.000 40.64 1.10 64.4-1.07 0.09 0.50 0.865 1814.11 0.90 0.08-1.47 340.8 0.059 0.363 0.797 1540.88 17.56-78 -