Portfolio Optimization Based on Robust Estimation Procedures

Σχετικά έγγραφα
Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium V

Ένα πρόβλθμα γραμμικοφ προγραμματιςμοφ βρίςκεται ςτθν κανονικι μορφι όταν:

ςυςτιματα γραμμικϊν εξιςϊςεων

ΘΥ101: Ειςαγωγι ςτθν Πλθροφορικι

ΑΝΣΙΣΡΟΦΗ ΤΝΑΡΣΗΗ. f y x y f A αντιςτοιχίηεται ςτο μοναδικό x A για το οποίο. Παρατθριςεισ Ιδιότθτεσ τθσ αντίςτροφθσ ςυνάρτθςθσ 1. Η. f A τθσ f.

ΦΥΕ 14 ΑΚΑΔ. ΕΤΟΣ Η ΕΡΓΑΣΙΑ. Ημερομηνία παράδοςησ: 12 Νοεμβρίου (Όλεσ οι αςκιςεισ βακμολογοφνται ιςοτίμωσ με 10 μονάδεσ θ κάκε μία)

ΠΡΟΦΟΡΑ ΖΗΣΗΗ ΚΡΑΣΘΚΗ ΠΑΡΕΜΒΑΗ

Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη

Πόςο εκτατό μπορεί να είναι ζνα μη εκτατό νήμα και πόςο φυςικό. μπορεί να είναι ζνα μηχανικό ςτερεό. Συνιςταμζνη δφναμη versus «κατανεμημζνησ» δφναμησ

ΑΡΙΣΟΣΕΛΕΙΟ ΠΑΝΕΠΙΣΘΜΙΟ ΘΕΑΛΟΝΙΚΘ ΣΜΘΜΑ ΘΛΕΚΣΡΟΛΟΓΩΝ ΜΘΧΑΝΙΚΩΝ ΚΑΙ ΜΘΧΑΝΙΚΩΝ ΤΠΟΛΟΓΙΣΩΝ ΣΟΜΕΑ ΘΛΕΚΣΡΟΝΙΚΘ ΚΑΙ ΤΠΟΛΟΓΙΣΩΝ

8 τριγωνομετρία. βαςικζσ ζννοιεσ. γ ςφω. εφω και γ. κεφάλαιο

ΒΙΟΛΟΓΟΙ ΓΙΑ ΦΥΣΙΚΟΥΣ

Ζρευνα ικανοποίθςθσ τουριςτϊν

Μάκθςθ Κατανομϊν Πικανότθτασ και Ομαδοποίθςθ

Δείκτεσ Διαχείριςθ Μνιμθσ. Βαγγζλθσ Οικονόμου Διάλεξθ 8

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΣΗ ΝΟΗΛΕΤΣΙΚΗ. Φιλιοποφλου Ειρινθ

Υπολογιςτικζσ Μζκοδοι ςτθν Οικονομία

Δια-γενεακι κινθτικότθτα

Η θεωρία τησ ςτατιςτικήσ ςε ερωτήςεισ-απαντήςεισ Μέροσ 1 ον (έωσ ομαδοποίηςη δεδομένων)

Δείκτεσ απόδοςθσ υλικών

ΜΑΘΗΜΑΤΙΚΑ Α Γυμνασίου

Μθχανζσ Διανυςμάτων Υποςτιριξθσ Support Vector Machines. Κϊςτασ Διαμαντάρασ Τμιμα Ρλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Πειραματικι Ψυχολογία (ΨΧ66)

Slide 1. Εισαγωγή στη ψυχρομετρία

Γενικόσ Δείκτησ Τιμών Καταναλωτή (ΔΤΚ) Γενικοφ ΔΤΚ. Εκπαίδευςη Αλκοολοφχα ποτά & Καπνό Χρηςιμοποιήςαμε τα λογιςμικά Excel, PowerPoint & Piktochart.

ΕΡΓΑΣΗΡΙΟ ΕΦΑΡΜΟΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ

Γεωργικός Πειραματισμός ΙΙ

Παράςταςη ακεραίων ςτο ςυςτημα ςυμπλήρωμα ωσ προσ 2

ΑΓΟΡΕ ΚΑΙ ΑΠΟΣΕΛΕΜΑΣΙΚΟΣΗΣΑ. Μεροσ ΙΙ

Γενικά Μαθηματικά ΙΙ

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο του Άβακα

Άςκθςθ 1θ: Να γραφεί αλγόρικμοσ που κα δθμιουργεί με τθ βοικεια διπλοφ επαναλθπτικοφ βρόχου, τον ακόλουκο διςδιάςτατο πίνακα:

Πανεπιςτιμιο Κφπρου ΟΙΚ 223: Μακθματικά για οικονομολόγουσ ΙΙ Διδάςκων:

17. Πολυδιάςτατοι πίνακεσ

ΕΝΟΣΗΣΑ 1: ΓΝΩΡIΖΩ ΣΟΝ ΤΠΟΛΟΓΙΣΗ. ΚΕΦΑΛΑΙΟ 3: Εργονομία

Σχεδίαςη Σφγχρονων Ακολουθιακών Κυκλωμάτων

Στατιςτικζσ δοκιμζσ. Συνεχι δεδομζνα. Γεωργία Σαλαντι

ΧΕΔΙΑΜΟ ΠΡΟΪΟΝΣΩΝ ΜΕ Η/Τ

ΛΕΙΣΟΤΡΓΙΚΆ ΤΣΉΜΑΣΑ. 7 θ Διάλεξθ Διαχείριςθ Μνιμθσ Μζροσ Γ

Διαδικαςία Διαχείριςθσ Στθλϊν Βιβλίου Εςόδων - Εξόδων. (v.1.0.7)

Το Δίκτυο Multi-Layer Perceptron και ο Κανόνασ Back-Propagation. Κϊςτασ Διαμαντάρασ Τμιμα Πλθροφορικισ ΤΕΙ Θεςςαλονίκθσ

Μθχανολογικό Σχζδιο, από τθ κεωρία ςτο πρακτζο Χριςτοσ Καμποφρθσ, Κων/νοσ Βαταβάλθσ

Αναφορά Εργαςίασ Nim Game

Τεχνικζσ Ανάλυςησ Διοικητικών Αποφάςεων

Ειδικά Θζματα Βάςεων Δεδομζνων

ΑΞΙΟΛΟΓΗΣΗ ΕΚΠΑΙΔΕΥΤΙΚΟΥ

Διαχείριςη Αριθμοδεικτών (v.1.0.7)

Παράςταςη ςυμπλήρωμα ωσ προσ 1

ΜΑ032: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Εαρινό εξάμηνο , Διδάςκων: Γιώργοσ Γεωργίου ΕΝΔΙΑΜΕΗ ΕΞΕΣΑΗ, 21 Μαρτίου, 2012 Διάρκεια: 2 ώρεσ

ΑΤΣΟΝΟΜΟΙ ΠΡΑΚΣΟΡΕ ΕΡΓΑΙΑ ΕΞΑΜΗΝΟΤ HEARTSTONE ΑΛΕΞΑΝΔΡΟ ΛΟΤΚΟΠΟΤΛΟ ΑΜ:

Οδηγίεσ προσ τουσ εκπαιδευτικοφσ για το μοντζλο τησ Αριθμογραμμήσ

Απλι Γραμμικι Παλινδρόμθςθ

Μέτρηςη τησ Εμφάνιςησ τησ Νόςου Νοςηρότητα : Επίπτωςη, Επιπολαςμόσ. Δρ. Ιωάννθσ Δετοράκθσ

Μεθολογία αςκιςεων αραίωςησ και ανάμειξησ διαλυμάτων (με τθν ίδια δ. ουςία).

ΑΔΡΑΝΕΙΑ ΜΑΘΗΣΕ: ΜΑΡΙΑΝΝΑ ΠΑΡΑΘΤΡΑ ΑΝΑΣΑΗ ΠΟΤΛΙΟ ΠΑΝΑΓΙΩΣΗ ΠΡΟΔΡΟΜΟΤ ΑΝΑΣΑΙΑ ΠΟΛΤΧΡΟΝΙΑΔΟΤ ΙΩΑΝΝΑ ΠΕΝΓΚΟΤ

x n D 2 ENCODER m - σε n (m 2 n ) x 1 Παραδείγματα κωδικοποιθτϊν είναι ο κωδικοποιθτισ οκταδικοφ ςε δυαδικό και ο κωδικοποιθτισ BCD ςε δυαδικό.

Πλαγιογώνια Συςτήματα Συντεταγμζνων Γιϊργοσ Καςαπίδθσ

3 ο ΓΥΜΝΑΣΙΟ ΤΡΙΚΑΛΩΝ ΕΡΓΑΣΙΑ ΤΕΧΝΟΛΟΓΙΑΣ Γ ΓΥΜΝΑΣΙΟΥ

ΚΤΚΛΩΜΑ RLC Ε ΕΙΡΑ (Απόκριςη ςε ημιτονοειδή είςοδο)

Ιςοηυγιςμζνα δζντρα και Β- δζντρα. Δομζσ Δεδομζνων

Modellus 4.01 Συ ντομοσ Οδηγο σ

Η ΠΟΙΟΣΗΣΑ ΔΙΔΑΚΑΛΙΑ ΚΑΙ ΣΟ ΔΤΝΑΜΙΚΟ ΜΟΝΣΕΛΟ ΕΚΠΑΙΔΕΤΣΙΚΗ ΑΠΟΣΕΛΕΜΑΣΙΚΟΣΗΣΑ

Αυτόνομοι Πράκτορες. Αναφορά Εργασίας Εξαμήνου. Το αστέρι του Aibo και τα κόκαλα του

Λαμβάνοντασ υπόψη ότι κατά την πρόςθεςη δφο δυαδικϊν ψηφίων ιςχφει: Κρατοφμενο

Γενικά Μαθηματικά ΙΙ Αςκήςεισ 11 ησ Ενότητασ

Ιδιότθτεσ πεδίων Γενικζσ.

Ανάπτυξη Εφαρμογών με Σχεςιακέσ Βάςεισ Δεδομένων

τατιςτικά ςτοιχεία ιςτότοπου Κ.Ε.Π.Α. Α.Ν.Ε.Μ, για τθν περίοδο 1/1/ /12/2014

ΑΚΗΕΙ ΠΡΟΒΛΕΨΕΩΝ ΠΡΟΒΛΕΨΕΙ

Είναι μια μελζτθ αςκενι-μάρτυρα (case-control). Όςοι ςυμμετζχουν ςτθν μελζτθ ζχουν επιλεγεί με βάςθ τθν ζκβαςθ.

Προχωρθμζνα Θζματα Συςτθμάτων Ελζγχου

Δίκτυα Υπολογιςτϊν 2-Rooftop Networking Project

Δομζσ Αφαιρετικότθτα ςτα Δεδομζνα

ΤΙΤΛΟΣ: "SWITCH-ΠΩ ΝΑ ΚΑΣΑΦΕΡΕΙ ΣΗΝ ΑΛΛΑΓΗ ΟΣΑΝ Η ΑΛΛΑΓΗ ΕΙΝΑΙ ΔΤΚΟΛΗ" Σσγγραφείς: Chip Heath & Dan Heath. Εκδόζεις: Κσριάκος Παπαδόποσλος/ΕΕΔΕ

Αςφάλεια και Προςταςία Δεδομζνων

Επιχειρηςιακή Ζρευνα και εφαρμογζσ με την χρήςη του λογιςμικοφ R

Γενικά Μαθηματικά ΙΙ

ΡΟΓΑΜΜΑΤΙΣΤΙΚΟ ΡΕΙΒΑΛΛΟΝ MICRO WORLDS PRO

Πόςεσ φορζσ επιςκζπτεςαι το Μeteo;

Επιχειρηςιακή Ζρευνα και εφαρμογζσ με την χρήςη του λογιςμικοφ R

ΕΦΑΡΜΟΓΕ ΒΑΕΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΔΙΑΔΙΚΣΤΟΤ. Φιλιοποφλου Ειρινθ

Clinical trials have gone global: Is this a good thing? Επιλεγόμενο μάκθμα «Λευχαιμίεσ» Σταυροφλα Μπεροποφλθ Κωνςταντίνοσ Φωτιάδθσ

ΑΣΛΑΝΣΙΚΗ ΕΝΩΗ ΠΑΝΕΤΡΩΠΑΪΚΟ STRESS TEST ΑΦΑΛΙΣΙΚΩΝ ΕΣΑΙΡΙΩΝ ΑΠΟΣΕΛΕΜΑΣΑ 2014

ΕΝΟΤΗΤΑ 2: ΤΟ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΥΠΟΛΟΓΙΣΤΗ. ΚΕΦΑΛΑΙΟ 5: Γνωριμία με το λογιςμικό του υπολογιςτι

ΜΑΘΗΜΑΣΙΚΑ Γ ΓΕΝΙΚΗ ( ΑΠΟ ΘΕΜΑΣΑ ΛΤΚΕΙΩΝ ) ΕΡΩΣΗΕΙ ΩΣΟΤ ΛΑΘΟΤ ΑΝΑΛΤΗ

Εργαςτιριο Βάςεων Δεδομζνων

Διάδοση θερμότητας σε μία διάσταση

Ενεργειακά Τηάκια. Πουκεβίλ 2, Ιωάννινα Τθλ

ΗΛΕΚΣΡΟΝΙΚΗ ΤΠΗΡΕΙΑ ΑΠΟΚΣΗΗ ΑΚΑΔΗΜΑΪΚΗ ΣΑΤΣΟΣΗΣΑ

ΕΡΓΑΣΗΡΙΑΚΗ ΑΚΗΗ 4.1

Μετατροπι Αναλογικοφ Σιματοσ ςε Ψθφιακό. Διάλεξθ 10

Ανάλυςη κλειςτϊν δικτφων

Μάρκετινγκ V Κοινωνικό Μάρκετινγκ. Πόπη Σουρμαΐδου. Σεμινάριο: Αναπτφςςοντασ μια κοινωνική επιχείρηςη

Εγχειρίδιο Χρήςησ Προςωποποιημζνων Υπηρεςιών Γ.Ε.ΜΗ. (Εθνικό Τυπογραφείο)

Καλϊσ Θλκατε ςτο νζο μασ site & e-shop Livardas.gr.

Γεωργικός Πειραματισμός ΙΙ ΑΥΞΗΜΕΝΑ ΣΧΕΔΙΑ

Aux.Magazine Μπιλμπάο, Βιηκάγια, Ιςπανία Προςωπικά δεδομζνα

Γενικά Μαθηματικά ΙΙ

ΑΣΚΗΣΕΙΣ ΧΑΜΗΛΩΝ ΕΡΑΝΑΛΗΨΕΩΝ: ΕΡΙΛΕΞΤΕ ΜΙΑ ΑΝΤΙΣΤΑΣΗ, ΕΤΣΙ ΩΣΤΕ ΝΑ ΕΘΕΤΕ ΣΕ ΕΞΑΝΤΛΗΣΗ ΣΕ 8-10 ΕΡΑΝΑΛΗΨΕΙΣ

Γενικά Μαθηματικά ΙΙ

Transcript:

ΑΡΘ ΣΟΣΕΛΕΘΟ ΠΑΝΕΠΘ ΣΗΜΘΟ ΘΕ ΑΛΟΝΘΚΗ ΣΜΗΜΑ ΗΛΕΚΣΡΟΛΟΓΩΝ ΜΗΥΑΝΘΚΩΝ & ΜΗΥΑΝΘΚΩΝ ΤΠΟΛΟΓΘ ΣΩΝ ΣΟΜΕΑ ΗΛΕΚΣΡΟΝΘΚΗ ΚΑΘ ΤΠΟΛΟΓΘ ΣΩΝ Portfolio Optimization Based on Robust Estimation Procedures ΔΘΠΛΩΜΑΣΘΚΗ ΕΡΓΑ ΘΑ των υοιτητών ΚΟΤΝΣΟΤΡΗ ΠΤΡΙΔΩΝ ΠΟΤΡΠΟΤΛΑΚΗ ΜΙΥΑΗΛ Επιβλέπων Καθηγητής: Γεώργιος Ζιούτας ΘΕΣΣΑΛΟΝΙΚΘ, ΟΚΤΩΒ ΙΟΣ 2017

ΑΡΘ ΣΟΣΕΛΕΘΟ ΠΑΝΕΠΘ ΣΗΜΘΟ ΘΕ ΑΛΟΝΘΚΗ ΣΜΗΜΑ ΗΛΕΚΣΡΟΛΟΓΩΝ ΜΗΥΑΝΘΚΩΝ & ΜΗΥΑΝΘΚΩΝ ΤΠΟΛΟΓΘ ΣΩΝ ΣΟΜΕΑ ΗΛΕΚΣΡΟΝΘΚΗ ΚΑΘ ΤΠΟΛΟΓΘ ΣΩΝ Portfolio Optimization Based on Robust Estimation Procedures ΔΘΠΛΩΜΑΣΘΚΗ ΕΡΓΑ ΘΑ των υοιτητών ΚΟΤΝΣΟΤΡΗ ΠΤΡΙΔΩΝ ΠΟΤΡΠΟΤΛΑΚΗ ΜΙΥΑΗΛ Επιβλέπων Καθηγητής: Γεώργιος Ζιούτας Εγκρύθηκε από την τριμελό εξεταςτικό επιτροπό την../../2017 (Υπογραφι) (Πνομα κακθγθτι) Κακθγθτισ Α.Ρ.Θ (Υπογραφι) (Πνομα κακθγθτι) Κακθγθτισ Α.Ρ.Θ (Υπογραφι) (Πνομα κακθγθτι) Κακθγθτισ Α.Ρ.Θ 2

... ΚΟΥΝΤΟΥΘΣ ΣΡΥΙΔΩΝ Διπλωματοφχοσ Θλεκτρολόγοσ Μθχανικόσ και Μθχανικόσ Υπολογιςτϊν Α.Ρ.Θ... ΡΟΥΡΟΥΛΑΚΘΣ ΜΙΧΑΘΛ Διπλωματοφχοσ Θλεκτρολόγοσ Μθχανικόσ και Μθχανικόσ Υπολογιςτϊν Α.Ρ.Θ 2017 All rights reserved 3

Ευχαριςτίεσ Ρριν τθν παρουςίαςθ των αποτελεςμάτων τθσ παροφςασ διπλωματικισ εργαςίασ, αιςκανόμαςτε τθν υποχρζωςθ να ευχαριςτιςουμε οριςμζνουσ από τουσ ανκρϊπουσ που ζπαιξαν πολφ ςθμαντικό ρόλο ςτθν πραγματοποίθςι τθσ. Αρχικά κζλουμε να ευχαριςτιςουμε τον επιβλζποντα κακθγθτι τθσ διπλωματικισ εργαςίασ, Κακθγθτι Γεϊργιο Ηιοφτα, που με τθν πολφτιμθ κακοδιγθςθ του και τθν εμπιςτοςφνθ που μασ ζδειξε ςυνζβαλε ουςιαςτικά ςτθν ολοκλιρωςθ αυτισ τθσ εργαςίασ. Τισ ευχαριςτίεσ μασ εκφράηουμε και ςτουσ κακθγθτζσ Λεωνίδα Ριτςοφλθ και Κωνςταντίνο Ραπαλάμπρου που δζχτθκαν να είναι μζλθ τθσ τριμελοφσ επιτροπισ αξιολόγθςθσ τθσ εργαςίασ μασ. Τζλοσ κζλουμε να ευχαριςτιςουμε τουσ γονείσ μασ, που με υπομονι και κουράγιο μασ πρόςφεραν τθν απαραίτθτθ θκικι ςυμπαράςταςθ κατά τθ διάρκεια τθσ ςυγγραφισ τθσ εργαςίασ αυτισ. 4

ΠΕΡΙΛΗΨΗ Ρολλζσ ςτρατθγικζσ για τθν κατανομι του ενεργθτικοφ (asset allocation) περιλαμβάνουν τον υπολογιςμό τθσ αναμενόμενθσ αξίασ και του πίνακα ςυνδιακφμανςθσ των αποδόςεων τoυσ. Θ ποςότθτα του κάκε περιςταςιακοφ ςτοιχείου που πρζπει ο επενδυτισ να ζχει ςτθν κατοχι του κακορίηεται από μια προςπάκεια ελαχιςτοποίθςθσ του κινδφνου - τθ διακφμανςθ των γραμμικϊν ςυνδυαςμϊν των επενδφςεων ςε αυτά τα χρθματοοικονομικά περιουςιακά ςτοιχεία - που υπόκεινται ςε διάφορουσ περιοριςμοφσ όπωσ ζνα δεδομζνο επίπεδο απόδοςθσ (return), όρια ςυγκζντρωςθσ κλπ. Ο πίνακασ ςυνδιακφμανςθσ περιζχει πολλζσ παραμζτρουσ για να εκτιμιςει και προκφπτουν δφο βαςικά προβλιματα. Ρρϊτον, τα δεδομζνα πικανότατα κα ζχουν ζκτοπεσ παρατιςεισ που κα επθρεάςουν ςοβαρά τον πίνακα ςυνδιακφμανςθσ. Δεφτερον, με τόςεσ πολλζσ παραμζτρουσ για εκτίμθςθ, απαιτείται ζνασ μεγάλοσ αρικμόσ παρατθριςεων επιςτροφισ και θ φφςθ των αγορϊν μπορεί να μεταβλθκεί ςθμαντικά για τόςο μεγάλο χρονικό διάςτθμα. Σε αυτι τθ διπλωματικι εργαςία ςυηθτάμε τθ χριςθ ανκεκτικϊν εκτιμθτϊν, τον FAST-MCD και τον LTED για να λφςουμε το πρϊτο πρόβλθμα και του V1 για τθ λφςθ του δεφτερου προβλιματοσ. Θ εφαρμογι των μεκόδων αυτϊν ςε δεδομζνα τθσ αγοράσ αποδεικνφει τθν αποτελεςματικότθτα τουσ και τθ ςυμβολι τουσ ςτθ βελτίωςθ τθσ απόδοςθσ του χαρτοφυλακίου. Οι ανκεκτικζσ αυτζσ μζκοδοι ζχουν μεγάλεσ δυνατότθτεσ να βελτιϊςουν τθν απόδοςθ του χαρτοφυλακίου, κακϊσ το προςαρμόηουν ανάλογα με το ρίςκο και αξίηουν επομζνωσ περαιτζρω διερεφνθςθ 5

ABSTRACT Many strategies for asset allocation involve the computation of the expected value and the covariance matrix of the returns of financial instruments. How much of each instrument to own is determined by an attempt to minimize risk- the variance of linear combinations of investments in these financial assets- subject to various constraints such as a given level of return, concentration limits, etc. The covariance matrix contains many parameters to estimate two main problems arise. First, the data will very likely have outliers that will seriously affect the covariance matrix. Second, with so many parameters to estimate, a large number of return observations are required and the nature of markets may change substantially over such a long period. In this paper we discuss using robust covariance procedures, FAST-MCD and LTED, to address the first problem and penalization methods for the second. When back-tested on market data, these methods are shown to be effective in improving portfolio performance. Robust asset allocation methods have great potential to improve risk-adjusted portfolio returns and therefore deserve further exploration in investment management research. 6

Πύνακασ περιεχομϋνων Ρίνακασ περιεχομζνων... 7 Κεφάλαιο 1...10 Μοντζλα κατανομισ περιουςιακϊν ςτοιχείων...10 1.1 Ειςαγωγι ςτο χαρτοφυλάκιο(portfolio)...10 1.1.1 Κίνδυνοσ...10 1.1.2 Ρροςδοκϊμενθ απόδοςθ...10 1.1.3 ευςτότθτα...11 1.1.4 Θεωρία του Markowitz...11 1.2 Αρχι τθσ βελτιςτοποίθςθσ χαρτοφυλακίων μζςθσ-διακφμανςθσ(mean-variance)...13 1.3 Το Αποτελεςματικό Σφνολο Μζςθσ Απόκλιςθσ(The Mean Variance Efficient Frontier)...15 1.4 Ρλεονεκτιματα και μειονεκτιματα τθσ βελτιςτοποίθςθσ τθσ μζςθσ απόκλιςθσ...17 Κεφάλαιο 2...20 Ανκεκτικι Στατιςτικι - Robust Statistics...20 2.1 Γενικά...20 2.2 Ειςαγωγι ςτθν ανκεκτικι ςτατιςτικι...21 2.2.1 Ροιοτικά κριτιρια ανκεκτικϊν εκτιμθτϊν...21 2.3 Μζκοδοι διάγνωςθσ outliers...23 2.3.1 Hat Matrix...23 2.3.2 Φαινόμενο Επικάλυψθσ...24 2.3.3 Mahalanobis απόςταςθ...25 Κεφάλαιο 3...27 Ανκεκτικι εκτίμθςθ τθσ μζςθσ τιμισ και του πίνακα ςυνδιακφμανςθσ...27 3.1 Ειςαγωγι...27 3.2 MCD Fast-MCD εκτιμθτισ...27 3.3 LTED εκτιμθτισ...30 3.3.1 Least trimmed absolute deviations estimator...31 3.3.2 Least trimmed Euclidean distance estimator...32 3.4 Σφγκριςθ αλγορίκμων...36 7

3.5 L1-penalized mean variance method (V1)...37 Κεφάλαιο 4...40 Το πρόβλθμα τθσ παλινδρόμθςθσ...40 4.1 Γενικά...40 4.2 Ειςαγωγι ςτθ παλινδρόμθςθ...40 4.3 Μζκοδοσ Ελαχίςτων Τετραγϊνων (OLS)...43 4.4 Outliers ςτθ παλινδρόμθςθ...44 4.4.1 y-outliers...44 4.4.2 x-outliers...45 4.5 Ανκεκτικζσ μζκοδοι παλινδρόμθςθσ...46 4.5.1 Iteratively reweighted least squares...47 4.5.2 Clean table regression with lted...47 Κεφάλαιο 5...50 Αποτελέσματα Ευαρμογής...50 5.1 Συλλογι δεδομζνων...50 5.2 Εφαρμογι μεκόδων...53 Κεφάλαιο 6...61 Σφνοψθ και μελλοντικι διερεφνθςθ...61 6.1 Support Vector Machines (SVM)...61 6.2 Συνδυαςμόσ V1-SVM...63 ΒΙΒΛΙΟΓΑΦΙΑ...66 8

9

Κεφϊλαιο 1 Μοντϋλα κατανομόσ περιουςιακών ςτοιχεύων 1.1 Ειςαγωγό ςτο χαρτοφυλϊκιο(portfolio) Χαρτοφυλάκιο ονομάηεται το ςφνολο των περιουςιακϊν ςτοιχείων που ζνασ επενδφτθσ ζχει ςτθ κατοχι του. Ρεριουςιακά ςτοιχεία μπορεί να κεωρθκοφν για παράδειγμα: μετοχζσ, ομόλογα, τίτλοι ιδιοκτθςίασ κλπ. Θ απόφαςθ για το ποια περιουςιακά ςτοιχεία κα ζχει ςτθ κατοχι του ο επενδυτισ ονομάηεται επιλογι χαρτοφυλακίου και μπορεί ναι είναι πολφπλοκθ. Στθν ςυγκεκριμζνθ εργαςία κα αςχολθκοφμε με χαρτοφυλάκια αποτελοφμενα από μετοχζσ. Ωςτόςο τα κεμελιϊδθ χαρακτθριςτικά των περιουςιακϊν ςτοιχείων, τα οποία πρζπει να λθφκοφν υπόψθ κατά τθν ειςαγωγι τουσ ςε ζνα χαρτοφυλάκιο είναι τρία και παρουςιάηονται ςτθ ςυνζχεια. 1.1.1 Κύνδυνοσ Ο κίνδυνοσ ορίηεται ωσ θ απόκλιςθ του πραγματοποιθκζντοσ αποτελζςματοσ από μια μζςθ αναμενόμενθ άξια. Κίνδυνοσ ουςιαςτικά κεωρείται θ πικανότθτα να υπάρξει ηθμία ι κζρδοσ από τθν επζνδυςθ ςε κάποιο περιουςιακό ςτοιχείο.οι πικανότθτεσ να υπάρξει κζρδοσ ι ηθμία είναι μεγάλεσ ι μικρζσ ανάλογα με το βακμό κινδφνου που ςχετίηεται μια ςυγκεκριμζνθ επζνδυςθ. Ρρόκειται για τθν αβεβαιότθτα ότι θ πραγματοποιοφμενθ απόδοςθ δεν κα είναι ίςθ με τθν αναμενόμενθ απόδοςθ. 1.1.2 Προςδοκώμενη απόδοςη Απόδοςθ αποδίδεται ωσ το κζρδοσ που αποκομίηει ζνασ επενδυτισ μζςα ςε µια χρονικι περίοδο μεταξφ του χρόνου t-1 και του χρόνου t. Τα ςτοιχεία που αποτελοφν τθν απόδοςθ είναι θ διαφορά τθσ τιμισ που παρουςιάηεται μεταξφ των δφο περιόδων. Γνωρίηοντασ τθν απόδοςθ δφο μετοχϊν, θ ςφγκριςθ τουσ γίνεται αντικειμενικότερθ για 10

μία ςυγκεκριμζνθ περίοδο χρόνου. Ωσ χρονικό διάςτθμα μπορεί να κεωρθκεί μια θμζρα, μια εβδομάδα, ζνασ μινασ κτλ. 1.1.3 Ρευςτότητα Θ ρευςτότθτα ενόσ περιουςιακοφ ςτοιχείου είναι το κατά πόςο εφκολα μπορϊ να το ανταλλάξω με άλλα αγακά, υπθρεςίεσ ι άλλα περιουςιακά ςτοιχεία. Το πιο αποδεκτό µζςο ςυναλλαγϊν είναι το χριµα και διακρίνεται από υψθλι ρευςτότθτα. Παράδειγμα: Ένα περιουςιακό ςτοιχείο που ρευςτοποιείται δφςκολα είναι το αυτοκίνθτο. Χρειάηεται χρόνοσ και κόποσ για τθν ανταλλαγι ενόσ μεταχειριςμζνου αυτοκινιτου µε άλλα αγακά, διότι πρζπει πρϊτα να βρεκεί κάποιοσ ενδιαφερόμενοσ να το αγοράςει. Θ ρευςτότθτα κάνει τισ ςυναλλαγζσ ευκολότερεσ και φκθνότερεσ, παρζχοντασ ευελιξία ςτον κάτοχο του χαρτοφυλακίου, γιατί ζνα περιουςιακό ςτοιχείο που ρευςτοποιείται εφκολα μπορεί να μετατραπεί ςε χριμα γριγορα αν υπάρχει άμεςθ ανάγκθ κεφαλαίων ι προκφψει µια καλι επενδυτικι ευκαιρία. Συνεπϊσ όςο πιο εφκολα ρευςτοποιείται ζνα περιουςιακό ςτοιχείο, τόςο ελκυςτικότερο είναι για όςουσ ζχουν πλοφτο. 1.1.4 Θεωρύα του Markowitz Θ κατανομι του ενεργθτικοφ(asset allocation) είναι θ διαδικαςία που χρθςιμοποιοφν οι επενδυτζσ για να κακορίςουν τισ κατηγορίεσ περιουςιακϊν ςτοιχείων ςτισ οποίεσ κα επενδφςουν και το βάροσ για κάκε κατθγορία περιουςιακϊν ςτοιχείων. Ο ςτόχοσ ενόσ μοντζλου κατανομισ περιουςιακϊν ςτοιχείων είναι να βρεκεί ο ςωςτόσ ςυνδυαςμόσ ςτοιχείων ενεργθτικοφ που επιτρζπει ςτουσ επενδυτζσ να επιτφχουν τουσ οικονομικοφσ τουσ ςτόχουσ λαμβάνοντασ υπόψθ τθν αναμενόμενθ απόδοςθ(expected return) και τον κίνδυνο. Θ κεωρία χαρτοφυλακίου μζςθσ διακφμανςθσ του Harry Markowitz είναι μακράν θ πιο γνωςτι και είναι ζνα καλά μελετθμζνο μοντζλο κατανομισ περιουςιακϊν ςτοιχείων τόςο για τουσ ακαδθμαϊκοφσ ερευνθτζσ όςο και για τουσ ερευνθτζσ επαγγελματίεσ. Θ βαςικι κεωρία χαρτοφυλακίου μζςθσ διακφμανςθσ προχποκζτει ότι οι επενδυτζσ προτιμοφν (1) υψθλότερεσ αναμενόμενεσ αποδόςεισ για ζνα δεδομζνο επίπεδο τυπικισ απόκλιςθσ / διακφμανςθσ[1]. (2) χαμθλότερεσ τυπικζσ αποκλίςεισ / διακυμάνςεισ για ζνα δεδομζνο επίπεδο αναμενόμενθσ απόδοςθσ[2]. 11

Χαρτοφυλάκια που παρζχουν τθ μζγιςτθ αναμενόμενθ απόδοςθ για δεδομζνθ τυπικι απόκλιςθ και ελάχιςτθ τυπικι απόκλιςθ για μια δεδομζνθ αναμενόμενθ απόδοςθ ονομάηονται αποτελεςματικά χαρτοφυλάκια και αυτά που δεν παρζχουν τα παραπάνω ορίηονται ωσ αναποτελεςματικά χαρτοφυλάκια. Αυτό ςυμβαίνει διότι θ διακφμανςθ δείχνει ουςιαςτικά το πόςο ρίςκο ζχει θ επζνδυςθ μασ και ςτόχοσ είναι θ ελαχιςτοποίθςθ του ρίςκου. Συγκεκριμζνα, θ διακφμανςθ μίασ μετοχισ ςε ζνα portfolio είναι παράγοντασ δφο πραγμάτων: (1) τθσ διακφμανςθσ τθσ ίδιασ τθσ μετοχισ (2) πωσ θ ςυγκεκριμζνθ μετοχισ κινείται ςε ςχζςθ με τισ υπόλοιπεσ, δθλαδι τθ ςυςχζτιςι τθσ με τισ υπόλοιπεσ. Θετικι ςυςχζτιςθ ςθμαίνει ότι οι τιμζσ μετοχϊν κινοφνται και οι δυο προσ τθ ίδια κατεφκυνςθ. Αντίκετα αρνθτικι ςυςχζτιςθ ςθμαίνει ότι ενϊ θ τιμι μίασ μετοχι φκίνει, θ άλλθ ζχει ανοδικι τάςθ. Για το λόγο αυτό οι επενδυτζσ επιλζγουν μετοχζσ που προζρχονται από διαφορετικζσ κατθγορίεσ ςτο portfolio ζτςι ϊςτε αυτό να είναι «αντιςτρόφωσ ςυςχετιςμζνο», δθλαδι να υπάρχει μια ιςορροπία μεταξφ των μετοχϊν. Επιλζγοντασ μετοχζσ οι οποίεσ δεν ακολουκοφν τα ίδια μοτίβα καταφζρνουμε να μειϊςουμε το ρίςκο του portfolio μασ. Αν και θ εφαρμογι του χαρτοφυλακίου μζςθσ διακφμανςθσ είναι διαιςκθτικά και κεωρθτικά ελκυςτικι, θ βελτιςτοποίθςθ ζχει παρεμποδιςτεί από τθ δυςκολία ςτθν ακριβι εκτίμθςθ των μοντζλων, και ςυγκεκριμζνα τθν εκτίμθςθ των αναμενόμενων 12

αποδόςεων και του πίνακα ςυνδιακφμανςθσ των περιουςιακϊν ςτοιχείων[3][4]. Ο ςτόχοσ αυτισ τθσ εργαςίασ είναι να το αντιμετωπίςει αυτό το κρίςιμο πρόβλθμα από διαφορετικζσ οπτικζσ γωνίεσ, με ζμφαςθ ςτθν ανκεκτικι ςτατιςτικι(robust statistics). 1.2 Αρχό τησ βελτιςτοπούηςησ χαρτοφυλακύων μϋςησδιακύμανςησ(mean-variance) Θ κεωρία του χαρτοφυλακίου μζςθσ-διακφμανςθσ βαςίηεται ςε μια βαςικι οικονομικι αρχι, τθ μεγιςτοποίθςθ τθσ χρθςιμότθτασ υπό οικονομικοφσ περιοριςμοφσ. Στθν οικονομία, θ χρθςιμότθτα είναι ζνα μζτρο τθσ ευτυχίασ ι τθσ ικανοποίθςθσ από τθν κατανάλωςθ αγακϊν και υπθρεςιϊν. Οι οικονομολόγοι πιςτεφουν ότι οι ορκολογικοί επενδυτζσ λαμβάνουν επενδυτικζσ αποφάςεισ (,κακϊσ και αποφάςεισ κατανάλωςθσ) για να μεγιςτοποιιςουν τθ διάρκεια ηωισ τθσ αναμενόμενθσ χρθςιμότθτασ υπό τουσ περιοριςμοφσ του προχπολογιςμοφ. Το παραπάνω πρόβλθμα ςε Τ περιόδουσ μπορεί να διατυπωκεί μακθματικά ωσ εξισ:, ( )- ( ) ( ) [ ] ( ) Θ εξίςωςθ του περιοριςμοφ του προχπολογιςμοφ(budget constraint) δθλϊνει ότι το ποςό που ζνασ επενδυτισ μπορεί να τοποκετιςει ςε ζνα χαρτοφυλάκιο είναι το ποςό του πλοφτου κατά το χρόνο t ςυν το ειςόδθμα μείον τθν κατανάλωςθ κατά τθν περίοδο. Θ δυναμικι εξίςωςθ του πλοφτου(wealth dynamic) δείχνει ότι θ απόδοςθ του χαρτοφυλακίου ιςοφται με το ςτακμιςμζνο μζςο όρο απόδοςθσ των μεμονωμζνων ςτοιχείων ενεργθτικοφ ςτθν επζνδυςθ. Ο ςτόχοσ αυτοφ του προβλιματοσ βελτιςτοποίθςθσ είναι θ μεγιςτοποίθςθ των αναμενόμενων υπθρεςιϊν κοινισ ωφζλειασ κατά τθ διάρκεια ηωισ του επενδυτι. Θ ςυνάρτθςθ χρθςιμότθτασ είναι ςυνάρτθςθ τθσ κατανάλωςθσ και του τελικοφ πλοφτου, ο 13

οποίοσ αποδίδει μια βακμολογία ευτυχίασ ςε κάκε ομάδα κατανάλωςθσ(consumption set) και ςτον τελικό πλοφτο. Διαφορετικοί επενδυτζσ μπορεί να ζχουν διαφορετικζσ ςυναρτιςεισ χρθςιμότθτασ. Θ ςυνάρτθςθ χρθςιμότθτασ όμωσ κάκε ορκολογικοφ επενδυτι κα πρζπει να ικανοποιεί τισ ακόλουκεσ τζςςερισ βαςικζσ ιδιότθτεσ: 1. Πληρότητα: είτε Ul> U2 είτε U1 <U2 ι U1 = U2 2. Μεταβατικότητα: U> U2, U2> U3 = U> U3 3. Μη ικανοποίηςη: περιςςότεροσ πλοφτοσ / κατανάλωςθ είναι καλφτεροσ από τον μικρότερο πλοφτο / κατανάλωςθ. 4. Νόμοσ μείωςησ των αποδόςεων: μείωςθ τθσ οριακισ χρθςιμότθτασ του πλοφτου / κατανάλωςθσ. Αν και θ μακθματικι διατφπωςθ είναι απλι, το πρόβλθμα είναι ζνα γιγαντιαίο δυναμικό πρόγραμμα που δεν μπορεί ποτζ να λυκεί επειδι όλα τα Yt, Pit, Zit και ακόμθ και τα Ct (τα οποία ςυχνά επθρεάηονται από τον πλθκωριςμό) είναι τυχαίοι αρικμοί. Ακόμθ και για μικρό αρικμό περιόδων, θ διάςταςθ του προβλιματοσ γίνεται τόςο μεγάλθ που είναι αδφνατο να επιλυκεί το πρόβλθμα. Αντ 'αυτοφ, ςτθν πράξθ χρθςιμοποιείται ςυχνά μια πολφ απλοφςτερθ ςτατικι εκδοχι του προβλιματοσ που λαμβάνει υπόψθ μόνο δφο χρονικζσ περιόδουσ, 0 και 1. Το πρόβλθμα κεωρεί ότι ζνασ επενδυτισ με τρζχοντα πλοφτο Wo πρζπει να επενδυκεί ςε n περιουςιακά ςτοιχεία, τα οποία κα αποφζρουν μελλοντικό πλοφτο W1. Θ χρθςιμότθτα ςτθν περίοδο 1 κακορίηεται από το W και το απλοποιθμζνο επενδυτικό πρόβλθμα μπορεί να διατυπωκεί ωσ:, ( )- ( ) Σε αυτι τθν εκδοχι του προβλιματοσ, θ ςυνάρτθςθ χρθςιμότθτασ είναι ςυνάρτθςθ του επιπζδου πλοφτου W, το οποίο αντικατοπτρίηει τισ προτιμιςεισ του επενδυτι και αποκαλφπτει επίςθσ τθ ςτάςθ του ζναντι κινδφνου. 14

Μια υποκείμενθ υπόκεςθ πίςω από τθ κεωρία του χαρτοφυλακίου διακφμανςθσ είναι ότι θ απόδοςθ του χαρτοφυλακίου (portfolio return) ακολουκεί κανονικι κατανομι ι οι επενδυτζσ ζχουν μια τετραγωνικι ςυνάρτθςθ χρθςιμότθτασ (quadratic utility function). Αξίηει να ςθμειωκεί ότι κανζνασ όροσ δεν πλθρείται ςτθν πραγματικότθτα. Οι απλζσ τετραγωνικζσ ςυναρτιςεισ μπορεί να μθν είναι ςυνεπείσ με τθ κεμελιϊδθ ιδιότθτα μιασ ςυνάρτθςθσ χρθςιμότθτασ, δεδομζνου ότι δείχνει ςε οριςμζνα επίπεδα πλοφτου ότι θ λειτουργία ζχει αρνθτικι οριακι χρθςιμότθτα και οι επενδυτζσ προτιμοφν λιγότερο πλοφτο για περιςςότερο πλοφτο (κορεςμό). Οι αποδόςεισ των περιουςιακϊν ςτοιχείων ζχουν ςυχνά ουρζσ(fat tails) ι / και είναι κετικά / αρνθτικά ςτρεβλωμζνα. Ζτςι, θ βελτιςτοποίθςθ τθσ μζςθσ διακφμανςθσ, όπωσ πολλά άλλα μακθματικά μοντζλα, είναι μια απλοποιθμζνθ αναπαράςταςθ τθσ πραγματικότθτασ. 1.3 Σο Αποτελεςματικό ύνολο Μϋςησ Απόκλιςησ(The Mean Variance Efficient Frontier) Ζςτω ότι ζνα portfolio αποτελείται από Ν μετοχζσ ςτισ οποίεσ κζλουμε να επενδφςουμε. Το ςυνολικό return του portfolio είναι το return κάκε μετοχισ πολλαπλαςιαςμζνο με το βάροσ που επιλζξαμε να επενδφςουμε ςε αυτιν: Οπότε το αναμενόμενο return και θ διακφμανςθ του portfolio μποροφν να γραφοφν ωσ: και ( ) ( ), όπου είναι το βάροσ τθσ i μετοχισ, είναι το return τθσ i μετοχισ του portfolio και είναι το αναμενόμενο return τθσ i μετοχισ. Τα w,μ,r είναι Νx1 διανφςματα και ο Σ είναι ο ΝxΝ πίνακασ ςυνδιακφμανςθσ των Ν μετοχϊν. Ορίςουμε το παρακάτω πρόβλθμα για να βροφμε τα ιδανικά βάρθ για κάκε μετοχι:, όπου e είναι ζνα διάνυςμα Νx1 με όλα τα ςτοιχεία του 1. Για κάκε οριςμζνο το παραπάνω πρόβλθμα μπορεί να λυκεί με τθ μζκοδο Lagrange[5+. Θ μζκοδοσ αυτι 15

περιμζνει δφο μόνο ειςόδουσ, τα αναμενόμενα return και τον πίνακα ςυνδιακφμανςθσ. Να ςθμειωκεί ότι το πρόβλθμα είναι οριςμζνο ζτςι ϊςτε για τισ ίδιεσ ειςόδουσ κα μασ επιςτρζψει πάντα τθν ίδια ζξοδο. Ππωσ φαίνεται ςτο ςχιμα, θ ςχζςθ μεταξφ τθσ αναμενόμενθσ απόδοςθσ και του κινδφνου (όπωσ μετράται με τυπικι απόκλιςθ) είναι μια γραμμικι ςχζςθ. Θ προςκικθ ενόσ περιουςιακοφ ςτοιχείου που δεν ζχει κάποιο ρίςκο αλλάηει τα αποτελεςματικά ςφνολα(efficient frontier) από υπερβολι ςε ευκεία γραμμι, θ οποία είναι εφαπτόμενθ ςτα αποτελεςματικά ςφνολα με μόνο επικίνδυνα περιουςιακά ςτοιχεία. Δείχνει ότι οι επενδυτζσ κα πρζπει να επενδφουν μόνο ςε ζνα ςυνδυαςμό του περιουςιακοφ ςτοιχείου χωρίσ κίνδυνο και του εφαπτόμενου χαρτοφυλακίου. Κάτω από ζνα ςφνολο αυςτθρϊν υποκζςεων, όπωσ τζλεια ορκολογικότθτα και ομοιογενείσ προςδοκίεσ των επενδυτϊν, οι Sharpe και Litner ζδειξαν ότι το εφαπτόμενο χαρτοφυλάκιο πρζπει να είναι το χαρτοφυλάκιο τθσ αγοράσ (δείκτθσ ςτακμιςμζνοσ ωσ προσ τθν αξία ολόκλθρθσ τθσ αγοράσ) και θ εφαπτόμενθ γραμμι να ονομάηεται γραμμι κεφαλαιαγοράσ (CML). Τα μακθματικά πίςω από αυτό είναι πολφπλοκα, αλλά θ διαίςκθςθ είναι απλι. Σε ιςορροπία, πρζπει να διατθροφνται όλα τα αποκζματα (οι αγορζσ πρζπει να κακαρίηονται). Ωσ εκ τοφτου, οι τιμζσ κα προςαρμοςτοφν για να γίνει βζβαιο ότι θ κατοχι του χαρτοφυλακίου τθσ αγοράσ είναι θ καλφτερθ επιλογι. Το αποτζλεςμα αυτό αναφζρεται ςυχνά ωσ CAPM[6][7], κακϊσ παρζχει μια πρόβλεψθ τθσ ςχζςθσ μεταξφ του κινδφνου ενόσ περιουςιακοφ ςτοιχείου και τθσ αναμενόμενθσ απόδοςθσ του. Το CAPM διαχωρίηει τον κίνδυνο ενόσ περιουςιακοφ ςτοιχείου ςε ςυςτθματικοφσ κινδφνουσ και ςε κινδφνουσ ιδιοςυγκραςίασ. Ο ςυςτθματικόσ κίνδυνοσ κακορίηεται από τθ 16

ςυνδιακφμανςθ του περιουςιακοφ ςτοιχείου με το χαρτοφυλάκιο τθσ αγοράσ και ο υπόλοιποσ κίνδυνοσ είναι ιδιοςυγκραςιακόσ κίνδυνοσ. Το βαςικό ςτοιχείο του CAPM είναι ότι μόνο ο ςυςτθματικόσ κίνδυνοσ κα αντιςτακμιςτεί με υψθλότερθ αναμενόμενθ απόδοςθ, ενϊ ο ιδιοςυγκραςιακόσ κίνδυνοσ δεν αντιςτακμίηεται κακϊσ μπορεί να διαφοροποιθκεί. Τα αμερικανικά κρατικά ομόλογα κεωροφνται ςυχνά ωσ περιουςιακά ςτοιχεία χωρίσ κινδφνουσ για τουσ αμερικανοφσ επενδυτζσ. Το χαρτοφυλάκιο τθσ αγοράσ υποτίκεται ότι περιλαμβάνει όλα τα επικίνδυνα περιουςιακά ςτοιχεία. Ωςτόςο, ςτθν πράξθ, ο δείκτθσ S & P 500 και άλλοι παραδοςιακοί ςτακμιςμζνοι δείκτεσ τθσ αγοράσ χρθςιμοποιοφνται ςυχνά ωσ υποκατάςτατο χαρτοφυλακίου για το χαρτοφυλάκιο τθσ αγοράσ. Οι νομικοί περιοριςμοί, οι επενδυτικζσ πολιτικζσ και οι ςτάςεισ των επενδυτϊν ςυχνά επιβάλλουν περιοριςμοφσ ςτισ κατθγορίεσ περιουςιακϊν ςτοιχείων για επενδφςεισ, κακϊσ και βάρθ χαρτοφυλακίου. Ζνασ από τουσ ςυνθκζςτερουσ περιοριςμοφσ είναι να αποκλείςουμε τισ ανοικτζσ πωλιςεισ (short sales) (wi 0, i = 1,...,N), που είναι θ νομικι απαίτθςθ πολλϊν αμοιβαίων κεφαλαίων και ςυνταξιοδοτικϊν ταμείων. Λαμβάνοντασ υπόψθ διαφορετικοφσ περιοριςμοφσ, ζνα γενικότερο πρόβλθμα βελτιςτοποίθςθσ χαρτοφυλακίου μπορεί να εκφραςτεί ωσ εξισ: όπου Aw>c αντιπροςωπεφει τουσ περιοριςμοφσ ανιςότθτασ των ςυντελεςτϊν ςτάκμιςθσ και Bw=d αντιπροςωπεφει τουσ περιοριςμοφσ ιςότθτασ. Το πρόβλθμα είναι ζνα τετραγωνικό πρόβλθμα ελαχιςτοποίθςθσ με γραμμικοφσ περιοριςμοφσ. Οι απαραίτθτεσ και επαρκείσ ςυνκικεσ για το πρόβλθμα δίδονται από τισ ςυνκικεσ του Kuhn-Tucker. Πλα αυτά τα προβλιματα βελτιςτοποίθςθσ μποροφν να επιλυκοφν αποτελεςματικά χρθςιμοποιϊντασ αλγόρικμουσ τετραγωνικοφ προγραμματιςμοφ, όπωσ θ μζκοδοσ του εςωτερικοφ ςθμείου(interior point method). 1.4 Πλεονεκτόματα και μειονεκτόματα τησ βελτιςτοπούηςησ τησ μϋςησ απόκλιςησ Θ απλι βελτιςτοποίθςθ μζςθσ διακφμανςθσ απαιτεί μόνο τον αναμενόμενο διάνυςμα επιςτροφισ και τον αναμενόμενο πίνακα ςυνδιακφμανςθσ ωσ δεδομζνα ειςαγωγισ. 17

Ραράγοντεσ όπωσ θ προτίμθςθ κάκε ατόμου δεν λαμβάνονται υπόψθ. Το μοντζλο βαςίηεται ςε ζναν επίςθμο ποςοτικό ςτόχο (formal quantitative objective) ο οποίοσ κα δίνει πάντα τθν ίδια λφςθ με το ίδιο ςφνολο παραμζτρων. Επομζνωσ, το μοντζλο δεν υπόκειται ςτισ προκαταλιψεισ των επενδυτϊν λόγω των γεγονότων τθσ αγοράσ ι των παρελκοντικϊν γεγονότων τθσ αγοράσ. Επίςθσ, ο ςχθματιςμόσ μπορεί να επιλυκεί αποτελεςματικά είτε ςε κλειςτι μορφι είτε μζςω αρικμθτικϊν μεκόδων. Πλα αυτά εξθγοφν τθ δθμοτικότθτά του και τθ ςυμβολι του ςτθ ςφγχρονθ κεωρία χαρτοφυλακίων (MPT). Οριςμζνεσ όμωσ από τισ υποκείμενεσ υποκζςεισ τθσ βελτιςτοποίθςθσ χαρτοφυλακίου μζςθσ διακφμανςθσ μποροφν να αμφιςβθτθκοφν. Για παράδειγμα, θ ςυνάρτθςθ χρθςιμότθτασ μπορεί να περιλαμβάνει προτιμιςεισ για περιςςότερο από το μζςο όρο και τθ διακφμανςθ των αποδόςεων χαρτοφυλακίου και μπορεί να είναι μια ςφνκετθ λειτουργία ςτθν οποία δεν είναι κατάλλθλθ μια τετραγωνικι προςζγγιςθ. Επίςθσ οι επιςτροφζσ χρθματικϊν περιουςιακϊν ςτοιχείων(financial asset returns) ςυχνά δεν ακολουκοφν κανονικι διανομι. Αντ' αυτοφ, είναι ςυχνά μετατοπιςμζνεσ προσ κάποια κατεφκυνςθ(skewed) και ζχουν ουρζσ(fat tails). Πταν θ κατανομι του return του περιουςιακοφ ςτοιχείου είναι μετατοπιςμζνο προσ κάποια κατεφκυνςθ, τότε είναι επίςθσ αμφιςβθτοφμενο εάν θ διακφμανςθ είναι το ςωςτό μζτρο κινδφνου, διότι αξιολογεί εξίςου τισ επικυμθτζσ ανοδικζσ και τισ ανεπικφμθτεσ αποκλίςεισ από τθ μζςθ τιμι. Ωςτόςο, το πιο ςοβαρό πρόβλθμα τθσ μζςθσ απόκλιςθσ αποτελεςματικϊν ςυνόρων (mean variance efficient frontier) είναι πικανϊσ θ αςτάκεια τθσ μεκόδου. Το όριο μζςθσ διακφμανςθσ είναι πολφ ευαίςκθτο ςτισ ειςόδουσ και αυτζσ οι είςοδοι υπόκεινται ςε τυχαία ςφάλματα ςτθν εκτίμθςθ τθσ αναμενόμενθσ απόδοςθσ και τθσ ςυνδιακφμανςθσ. Μικρζσ και ςτατιςτικά αςιμαντεσ αλλαγζσ ςτισ εκτιμιςεισ αυτζσ μποροφν να οδθγιςουν ςε ςθμαντικι αλλαγι ςτθ ςφνκεςθ των αποτελεςματικϊν ςυνόρων. Αυτό μπορεί να μασ οδθγιςει ςε επανειλθμμζνθ και λανκαςμζνθ επανεξιςορρόπθςθ του χαρτοφυλακίου μασ, ϊςτε να παραμείνουμε ςε αυτό το απατθλό αποτελεςματικό ςφνολο, προκαλϊντασ περιττά ζξοδα ςυναλλαγισ. Θ παραδοςιακι βελτιςτοποίθςθ του χαρτοφυλακίου Markowitz υπολογίηει τθν αναμενόμενθ επιςτροφι και τον πίνακα ςυνδιακφμανςθσ από τισ χρονοςειρζσ ιςτορικϊν επιςτροφϊν και τισ αντιμετωπίηει ωσ αλθκινζσ παραμζτρουσ για τθν επιλογι χαρτοφυλακίου. Θ αφελισ προςζγγιςθ μζςθσ διακφμανςθσ οδθγεί ςυχνά ςε υπερβολικά βάρθ χαρτοφυλακίου (αντί για ζνα διαφοροποιθμζνο χαρτοφυλάκιο όπωσ προβλζπει θ μζκοδοσ) και δραματικζσ μεταβολζσ ςτα βάρθ όταν υπάρχει μια μικρι αλλαγι ςτισ αναμενόμενεσ αποδόςεισ ι ςτον πίνακα ςυνδιακφμανςθσ. Συνεπϊσ, θ πρακτικι εφαρμογι τθσ μζςθσ βελτιςτοποίθςθσ διακφμανςθσ παρεμποδίηεται ςοβαρά από ςφάλματα εκτίμθςθσ. Στα επόμενα κεφάλαια, κα παρουςιαςτοφν πιο εξελιγμζνεσ προςεγγίςεισ για τθν αντιμετϊπιςθ του προβλιματοσ ςφάλματοσ-εκτίμθςθσ και για τθν αφξθςθ τθσ απόδοςθσ του χαρτοφυλακίου με βάςθ τον κίνδυνο. 18

19

Κεφϊλαιο 2 Ανθεκτικό τατιςτικό - Robust Statistics 2.1 Γενικϊ Στο προθγοφμενο Κεφάλαιο, ςυηθτιςαμε τον δείκτθ μζςθσ τιμισ μ και τον πίνακα ςυνδιακφμανςθσ Σ, κακϊσ και τα μοντζλα παραγόντων. Ωςτόςο, τα αποτελζςματα από αυτά τα μοντζλα δεν είναι ικανοποιθτικά όταν εφαρμοςτοφν ςτθ μελζτθ μασ. Μια προςεκτικι ανάλυςθ δείχνει ότι το πρόβλθμα μπορεί να ζγκειται ςτθν αδικαιολόγθτθ επίδραςθ των ζκτοπων παρατθριςεων (outliers). Σφμφωνα με τον Hawkings ζνα outlier ορίηεται ωσ εξισ: «Ένα outlier είναι μία παρατιρθςθ θ οποία αποκλίνει τόςο πολφ από τισ υπόλοιπεσ παρατθριςεισ ϊςτε να κινιςει τισ υποψίεσ ότι ζχει παραχκεί από κάποιον διαφορετικό μθχανιςμό» Τα μοντζλα παραγόντων που χρθςιμοποιοφνται χρθςιμεφουν ςυνικωσ ςτθν απλι γραμμικι παλινδρόμθςθ για τθν εκτίμθςθ των ςυντελεςτϊν παλινδρόμθςθσ. Είναι γνωςτό ςτθ ςτατιςτικι βιβλιογραφία ότι οι αποκλίςεισ που δθμιουργοφνται από μολυςμζνεσ κατανομζσ, όπωσ ςυμβαίνει με τισ αποδόςεισ των περιουςιακϊν ςτοιχείων, ζχουν ςυχνά ςθμαντικι ςτρεβλωτικι επίδραςθ ςτισ εκτιμιςεισ των ελαχίςτων τετραγϊνων. Ζνα μικρό ποςοςτό ζκτοπων παρατθριςεων, ςε οριςμζνεσ περιπτϊςεισ ακόμθ και ενόσ outlier, μπορεί να οδθγιςει ςε ςτρζβλωςθ τθσ τελικισ εκτιμϊμενθσ διακφμανςθσ και ςυνδιακφμανςθσ. Μελζτεσ δείχνουν ότι οι πιο ακραίεσ (μεγάλεσ κετικζσ ι αρνθτικζσ) παρατθριςεισ ςτον εκτιμθμζνο πίνακα ςυνδιακφμανςθσ ςυχνά περιζχουν το μεγαλφτερο ςφάλμα και ωσ εκ τοφτου, θ βελτιςτοποίθςθ μζςθσ απόκλιςθσ βαςιςμζνθ ςε μια τζτοια μιτρα ςυνικωσ δίνει ςε αυτζσ τισ αναξιόπιςτεσ παρατθριςεισ τα μεγαλφτερα βάρθ (κετικά ι αρνθτικά). Αυτό το φαινόμενο "μεγιςτοποίθςθσ ςφάλματοσ" αναγκάηει τθν τεχνικι μζςθσ διακφμανςθσ να ςυμπεριφζρεται πολφ άςχθμα αν δεν διορκωκοφν τζτοια ςφάλματα. Για να ξεπεραςτοφν τα παραπάνω προβλιματα κα μελετιςουμε ανκεκτικζσ τεχνικζσ που επθρεάηονται λιγότερο από τισ ζκτοπεσ παρατθριςεισ. Στο κεφάλαιο αυτό κα αναφερκοφν οριςμζνα γενικά χαρακτθριςτικά για τθν ανκεκτικι ςτατιςτικι(robust statistics), ςτο κεφάλαιο 3 κα παρουςιαςτοφν ανκεκτικοί μζκοδοι εκτίμθςθσ τθσ μζςθσ τιμισ και του πίνακα ςυνδιακφμανςθσ, ενϊ ςτο κεφάλαιο 4 κα παρουςιαςτεί το πρόβλθμα τθσ παλινδρόμθςθσ και οριςμζνεσ ανκεκτικζσ μζκοδοι παλινδρόμθςθσ. 20

2.2 Ειςαγωγό ςτην ανθεκτικό ςτατιςτικό Γενικά robust(ανκεκτικό) είναι ζνα χαρακτθριςτικό που περιγράφει τθν ικανότθτα ενόσ μοντζλου εκτιμθτι να λειτουργεί αποτελεςματικά, όπου θ κάκε παρατιρθςθ του δείγματοσ ςυμβάλλει ςτθ εκτίμθςθ κατά ζνα μικρό ποςοςτό. Με άλλα λόγια ζνασ ανκεκτικόσ εκτιμθτισ(robust estimator) είναι αυτόσ που αντζχει ςτθ μεγάλθ επίδραςθ των outliers. Για τθ ςτατιςτικι, ζνα μοντζλο κεωρείται ωσ ανκεκτικό αν εξακολουκεί να παρζχει ςωςτζσ πλθροφορίεσ για ζνα πρόβλθμα παρά τισ διαφοροποιιςεισ ι παραβιάςεισ των παραδοχϊν και υποκζςεων κανονικοποίθςθσ του, ενϊ ςτθν οικονομία θ ανκεκτικότθτα αποδίδεται ςτισ χρθματιςτθριακζσ αγορζσ που ςυνεχίηουν να λειτουργοφν παρά τισ αλλαγζσ των ςυνκθκϊν τθσ αγοράσ. Γενικά, θ ανκεκτικότθτα του εκτιμθτι ςθμαίνει ότι μπορεί να αντιμετωπίςει τισ παραβιάςεισ των υποκζςεων και να παραμείνει αποτελεςματικό. 2.2.1 Ποιοτικϊ κριτόρια ανθεκτικών εκτιμητών Θ ποιότθτα ενόσ εκτιμθτι χαρακτθρίηεται από 2 βαςικά κριτιρια, τθν ανκεκτικότθτα θ όποια κακορίηεται από το ςθμείο κατάρρευςθσ και τθν αποτελεςματικότθτα θ οποία κακορίηεται από τθ ςχετικι διακφμανςθ ωσ προσ τον OLS εκτιμθτι. 2.2.1.1 Ανθεκτικότητα Με τον όρο ανκεκτικότθτα περιγράφουμε τθν ικανότθτα ενόσ εκτιμθτι να είναι όςο το δυνατόν ανεπθρζαςτοσ ςτον προςδιοριςμό τθσ ευκείασ παλινδρόμθςθσ υπό τθ παρουςία outliers[13+. Για τον χαρακτθριςμό του κριτθρίου αυτοφ χρθςιμοποιοφμε το ςθμείο κατάρρευςθσ, το μζγιςτο ποςοςτό outliers που αντζχει ο εκτιμθτισ, ϊςτε θ ευκεία παλινδρόμθςθσ να είναι χριςιμθ. Για τθ μακθματικι εξίςωςθ που προςδιορίηει το ςθμείο κατάρρευςθσ υποκζτουμε ότι: *( ) ( )+ είναι το δείγμα μασ που αποτελείται από κακαρά δεδομζνα, χωρίσ residuals, και T μια εκτιμιτρια ςυνάρτθςθ παλινδρόμθςθσ, με ςκοπό τθν εφρεςθ τθσ ευκείασ παλινδρόμθςθσ. Ζτςι ιςχφει*8+: 21

( ) Αν αντικαταςτιςουμε m τυχαίεσ παρατθριςεισ του δείγματοσ με residuals, και υποκζςουμε ότι Η είναι το νζο δείγμα, τότε μποροφμε να παρατθριςουμε με ( ) τθν απόκλιςθ των νζων ςυντελεςτϊν από τουσ αρχικοφσ. Δθλαδι ( ) ( ) ( ). Στθ ςυνζχεια από το ςφνολο όλων των πικανϊν αντικαταςτάςεων που προκφπτουν, επιλζγουμε το, ( )- ωσ τθ μεγαλφτερθ απόκλιςθ ςυντελεςτϊν που μπορεί να προκφψει. Αν θ τιμι τθσ ςυνάρτθςθσ δεν είναι πραγματικόσ αρικμόσ, αλλά άπειρο, αυτό ςθμαίνει ότι θ γραμμι μασ ζχει «καταρρεφςει» και καταςτραφεί. Ο μακθματικόσ τφποσ του ςθμείου κατάρρευςθσ είναι: ( ). ( )1 Πςο μεγαλφτερο είναι το ςθμείο κατάρρευςθσ τόςο πιο ανκεκτικι είναι θ μζκοδοσ που χρθςιμοποιείται. Από τθν άλλθ είναι λογικό τα residuals να αποτελοφν το πολφ το 50% του δείγματοσ που ζχουμε, διότι ςε διαφορετικι περίπτωςθ δε μποροφμε να κάνουμε γραμμικι ανάλυςθ παλινδρόμθςθσ ςε δεδομζνα που θ πλειοψθφία τουσ ζχει μεγαλφτερθ απόκλιςθ από τα κακαρά δεδομζνα*8+. Γίνεται ζτςι κατανοθτό ότι το ιδανικό ςθμείο κατάρρευςθσ μιασ μεκόδου είναι ίςο με 0.5 ι 50% *5+*6+*8+. 2.2.1.2 Αποτελεσματικότητα Με τον όρο αποτελεςματικότθτα περιγράφουμε τθν ικανότθτα τθσ μεκόδου να ςυμπεριλάβει ςτθν ανάλυςθ παλινδρόμθςθσ όςο το δυνατόν περιςςότερεσ παρατθριςεισ του δείγματοσ που δεν είναι outliers. Συχνά χρθςιμοποιείται ο όροσ αςυμπτωτικι αποτελεςματικότθτα *11+ για να δθλϊςει τθν αποτελεςματικότθτα ςτθ οποία ςυγκλίνει μια μζκοδοσ όταν ο αρικμόσ των παρατθριςεων είναι μεγάλοσ. Αποτελεςματικόσ είναι ζνασ εκτιμθτισ όταν ζχει όςο το δυνατόν μικρότερθ διακφμανςθ. Για να εκτιμιςουμε τθν διακφμανςθ ενόσ εκτιμθτι, τθν ςυγκρίνουμε με αυτι του OLS εκτιμθτι όταν τα δεδομζνα ακολουκοφν κανονικι κατανομι χωρίσ outliers. Θ εξίςωςθ τθσ αποτελεςματικότθτασ για ζναν Τ εκτιμθτι δίνεται παρακάτω*3+: ( ) ( ) Παρατήρηςη: Αξίηει να αναφζρουμε ότι θ αποτελεςματικότθτα και το ςθμείο κατάρρευςθσ ενόσ εκτιμθτι είναι μεγζκθ αντιςτρόφωσ ανάλογα*5+. Αυτό ςθμαίνει ότι όςεσ περιςςότερεσ 22

παρατθριςεισ περιλαμβάνουμε ςτθν ανάλυςθ τθσ ευκείασ παλινδρόμθςθσ τόςο μεγαλφτερθ αποτελεςματικότθτα ζχουμε αλλά ταυτόχρονα χάνουμε ςε ανκεκτικότθτα, αφοφ μικραίνει το ςθμείο κατάρρευςθσ. Ομοίωσ θ απόρριψθ κακϊν παρατθριςεων από ζναν εκτιμθτι αυξάνει τθν ανκεκτικότθτα του, άρα και το ςθμείο κατάρρευςθσ, χάνουμε όμωσ ςε αποτελεςματικότθτα. Στθ ςυνζχεια παρουςιάηονται οριςμζνοι τρόποι διάγνωςθσ των outliers, που οριςμζνοι από αυτοφσ χρθςιμοποιοφνται από τουσ ανκεκτικοφσ εκτιμθτζσ που κα μελετιςουμε ςτθ ςυνζχεια 2.3 Μϋθοδοι διϊγνωςησ outliers Ππωσ είδαμε προθγουμζνωσ τα outliers μποροφν να επθρεάςουν ςθμαντικά το ςφςτθμα μασ. Οι μζκοδοι διάγνωςθσ είναι οι τεχνικζσ οι οποίεσ μασ επιτρζπουν να ανιχνεφςουμε τισ παρατθριςεισ που ζχουν μεγάλθ επίδραςθ ςτουσ εκτιμθτζσ μασ. Μερικζσ από τισ μεκόδουσ ζχουν ςχεδιαςτεί με ςκοπό τθν ανίχνευςθ μεμονωμζνων περιπτϊςεων, ενϊ άλλεσ ςτοχεφουν ςτθν αναγνϊριςθ ομάδων δεδομζνων που είναι outliers. Στθ ςυνζχεια κα δοφμε αναλυτικά δυο από τισ πιο κλαςςικζσ μεκόδουσ διάγνωςθσ, αυτι του πίνακα Hat Matrix και τθν Mahalanobis απόςταςθ. 2.3.1 Hat Matrix Θ κλαςςικότερθ τάξθ διαγνωςτικϊν που χρθςιμοποιείται *11][12+, είναι τα διαγϊνια ςτοιχεία του πίνακα Θ(Hat Matrix). Για τον πίνακα αυτόν υποκζτουμε ότι ιςχφει. Ο πίνακασ Hat matrix δίνεται από τθ ςχζςθ: Ζτςι ζχουμε: ( ) ( ) Τα διαγϊνια ςτοιχεία του πίνακα ςυμβολίηονται με, και αποτελοφν ζνα είδουσ κριτιριο για τθν επίδραςθ κάκε παρατιρθςθσ ςτθ γραμμι παλινδρόμθςθσ. Τα βαςικά χαρακτθρίςτθκα του πίνακα είναι: 23

Για κάκε διαγϊνιο ςτοιχείο του πίνακα ιςχφει, Είναι ςυμμετρικόσ Το ίχνοσ του πίνακα, δθλαδι το άκροιςμα των ςτοιχείων τθσ κφριασ διαγωνίου του, είναι ίςο με τον αρικμό των ανεξάρτθτων μεταβλθτϊν του δείγματοσ. Ο βακμόσ του πίνακα είναι και αυτόσ ίςοσ με τον αρικμό των ανεξάρτθτων μεταβλθτϊν του δείγματοσ. Η μζςθ τιμι των διαγϊνιων ςτοιχείων του hat matrix είναι p/n. Επίςθσ, αξίηει να αναφερκεί ότι υπάρχει ςχζςθ μεταξφ των διαγωνίων ςτοιχείων του hat matrix και των εξαρτθμζνων μεταβλθτϊν του δείγματοσ. Ριο ςυγκεκριμζνα τα x που ικανοποιοφν τθ ςχζςθ: ( ) Τα x αυτά κακορίηουν ζνα ελλειψοειδζσ χϊρο που περικλείει όλεσ τισ παρατθριςεισ, και προςδιορίηει τθν περιοχι τιμϊν των ανεξάρτθτων μεταβλθτϊν. Πμωσ είναι πικανό να υπάρχουν και τιμζσ που βρίςκονται ζξω από τον χϊρο αυτόν. Αυτό ςυμβαίνει επειδι οι τιμζσ των διαγϊνιων ςτοιχείων τουσ μπορεί να είναι είτε πολφ μεγάλεσ και να ξεπερνάνε το, οπότε βρίςκονται μακριά από τον ελλειψοειδι χϊρο, είτε επειδι είναι πολφ μικρζσ και ςυνεπϊσ βρίςκονται πολφ κοντά ςτθ περιοχι τιμϊν των υπόλοιπων x. Ζτςι τα διαγϊνια ςτοιχεία του πίνακα hat matrix αποτελοφν μια πολφ καλι τάξθ διαγνωςτικϊν. Συγκεκριμζνα, ςθμεία που ζχουν μεγάλθ τιμι ζχουν και μεγάλθ επίδραςθ και ςυνεπάγονται ςε bad leverage ςθμεία, ενϊ αντίκετα ςθμεία με αρκετά μικρι τιμι είναι αυτά που ζχουν μικρι επίδραςθ ςτθ γραμμι παλινδρόμθςθσ, τα λεγόμενα good leverage ςθμεία. Πταν τα διαγϊνια ςτοιχεία είναι μθδζν τότε οι αντίςτοιχεσ παρατθριςεισ δεν επθρεάηουν κακόλου τθν ευκεία παλινδρόμθςθσ. 2.3.2 Φαινόμενο Επικϊλυψησ Ζνα φαινόμενο που εμφανίηεται και μπορεί να ζχει καταςτροφικζσ ςυνζπειεσ ςτα αποτελζςματα μασ είναι το φαινόμενο τθσ επικάλυψθσ( masking effect)*5+. Αυτό εμφανίηεται όταν ζχουμε ςυγκεντρωμζνεσ απομακρυςμζνεσ παρατθριςεισ(outliers), μακριά από τθν περιοχι τιμϊν των ανεξάρτθτων παρατθριςεων. Ππωσ είδαμε προθγουμζνωσ με τον πίνακα hat matrix μια παρατιρθςθ με ανεξάρτθτεσ μεταβλθτζσ μακριά από τον χϊρο των ανεξάρτθτων μεταβλθτϊν των υπόλοιπων παρατθριςεων, κα ζχει μεγάλθ τιμι οπότε κα κεωρθκεί ωσ bad leverage point. Αυτό όμωσ δεν ςυμβαίνει ςτθ περίπτωςθ που ζχουμε το φαινόμενο τθσ επικάλυψθσ. Οι πολλζσ απομακρυςμζνεσ παρατθριςεισ κα ζχουν τθν τάςθ να τραβιξουν το ελλειψοειδζσ ςχιμα προσ το μζροσ τουσ, μειϊνοντασ ζτςι τισ τιμζσ τισ διαγϊνιου τουσ με αποτζλεςμα να μθ μποροφν να 24

ανιχνευκοφν ωσ outlier. Υπάρχει ανάγκθ για τθν εφαρμογι άλλων πιο ανκεκτικϊν μεκόδων προκειμζνου να ανιχνευκοφν ςωςτά τα απομακρυςμζνα ςθμεία. 2.3.3 Mahalanobis απόςταςη Ζνα άλλο διαγνωςτικό των x-outliers είναι θ απόςταςθ Mahalanobis(Prasanta Chandra Mahalanobis 1936)[11+. Υποκζτοντασ ότι ( ) ( ) είναι οι ανεξάρτθτεσ μεταβλθτζσ μιασ παρατιρθςθσ του προςαρμοςμζνου πίνακα Χ διάςταςθσ n x (p+1) και είναι θ μζςθ τιμι των τφπο:, τότε το τετράγωνο τθσ Mahalanobis απόςταςθσ δίνετε από τον ( ) ( ) Ππου ( ) ( ) Θ Mahalanobis απόςταςθ υπολογίηει το πόςο απομακρφνεται το διάνυςμα από το και για αυτό το λόγο είναι ζνα μζτρο διάγνωςθσ των x-outliers, αλλά όπωσ και ςτθ περίπτωςθ του hat matrix, δεν προςφζρεται για τθ διάγνωςθ των y-outliers κακϊσ και είναι και αυτι ευαίςκθτθ ςτο φαινόμενο τθσ επικάλυψθσ. Τζλοσ, αποδεικνφεται ότι υπάρχει 1-1 ςχζςθ τθσ Mahalanobis απόςταςθσ με τον hat matrix θ οποία είναι: ( ) ( ) 25

26

Κεφϊλαιο 3 Ανθεκτικό εκτύμηςη τησ μϋςησ τιμόσ και του πύνακα ςυνδιακύμανςησ 3.1 Ειςαγωγό Σε πολλζσ περιπτϊςεισ μασ ενδιαφζρει θ ςυςχζτιςθ ανάμεςα ςτισ μεταβλθτζσ και γι αυτό αν κεωρθκεί θ κάκε μία ξεχωριςτά κα χανόταν πολφτιμθ πλθροφορία. Τα outliers ςτα πολυμεταβλθτά δεδομζνα είναι πολφ δφςκολο να ανιχνευκοφν. Ωσ το κυριότερο εργαλείο κα μποροφςαμε να αναφζρουμε το «κζντρο» του πίνακα των πολλϊν μεταβλθτϊν Χ, και τθ διαςπορά των τιμϊν γφρω από αυτό το «κζντρο». Υποκζτουμε ότι ζχουμε το ςφνολο δεδομζνων, * + όπου είναι θ i παρατιρθςθ των p μεταβλθτϊν * + και επικυμοφμε τθν εκτίμθςθ του «κζντρου» του Χ. Για αυτό το ςκοπό μποροφμε να εφαρμόςουμε ζναν εκτιμθτι πολλαπλισ κζςθσ, όπωσ π.χ. τθν αρικμθτικι μζςθ τιμι, θ οποία ορίηεται από τα ελάχιςτα τετράγωνα, ωςτόςο μία τζτοια προςζγγιςθ δε κα ιταν ανκεκτικι. Επίςθσ, ςε πολλζσ περιπτϊςεισ, ενδιαφζρον ζχει μαηί με τθν εκτίμθςθ κζςθσ και θ εκτίμθςθ διαςποράσ ι ςυνδιακφμανςθσ των μεταβλθτϊν. Για τον λόγο αυτό οι περιςςότεροι μοντζρνοι εκτιμθτζσ χρθςιμοποιοφν τθν Mahalanobis απόςταςθ (Mahalanobis distance) που τθν παρουςιάςαμε ςτο προθγοφμενο κεφάλαιο. Στθ ςυνζχεια παρουςιάηονται αναλυτικά δυο τζτοιοι εκτιμθτζσ. 3.2 MCD Fast-MCD εκτιμητόσ Ζνασ από τουσ πιο δθμοφιλισ εκτιμθτζσ κζςθσ και ςυνδιακφμανςθσ είναι ο MCD (Minimum Covariance Determinant) εκτιμθτισ, ο οποίοσ αναπτφχκθκε από τον Rousseeuw το 1984. Ο εκτιμθτισ αυτόσ αποτελεί μια γενίκευςθ του εκτιμθτι ελαχίςτων τετραγϊνων LTS ςτθν πολυμεταβλθτι κζςθ. Στθ περίπτωςθ του MCD διερευνϊνται τα h (h=(n+p+1)/2) 27

ςθμεία (γραμμζσ) του πίνακα Χ, για τα οποία θ ορίηουςα του πίνακα ςυνδιακφμανςθσ είναι ελάχιςτθ. Συγκεκριμζνα, εάν ( )είναι οι Mahalanobis αποςτάςεισ, ο MCD εκτιμθτισ αντιςτοιχεί ςτθ εφρεςθ h ςθμείων για τα οποία το ελλειψοειδζσ * ( ) + ζχει τον ελάχιςτο όγκο και ςτθ ςυνζχεια παίρνει το κζντρο τουσ και τθν ςυνδιακφμανςι τουσ. Ριο ειδικά, μ είναι θ μζςθ τιμι των επιλεγμζνων n γραμμϊν του Χ και Σ είναι θ ςυνδιακφμανςθ τουσ, πολλαπλαςιαηόμενθ με ζναν ςυντελεςτι για να επιτευχκεί ςυνζπεια με τθν πολυμεταβλθτι κανονικότθτα. Ζτςι, ο MCD εκτιμθτισ ελαχιςτοποιεί τθν κλίμακα ς των Mahalanobis αποςτάςεων d(x i, μ, Σ ), ^( ) ( ), όπου ( ) ( ) ( ) Θ παράμετροσ h προςδιορίηει τθν ανκεκτικότθτα αλλά και τθν αποτελεςματικότθτα του εκτιμθτι. Το μζγιςτο ςθμείο κατάρρευςθσ HBP επιτυγχάνεται με h n/2, αλλά αυτι οδθγεί ςε μικρι αποτελεςματικότθτα. Από τθν άλλθ πλευρά, όςο μικραίνουν οι τιμζσ του h, θ αποτελεςματικότθτα αυξάνει, αλλά μειϊνεται θ ανκεκτικότθτα. Για τον λόγο αυτόν επιλζγουμε μια μζςθ τιμι h 0.25n. Ρροκειμζνου να αυξιςουμε περαιτζρω τθν αποτελεςματικότθτα του MCD εκτιμθτι ενεργείται ζνα βιμα επαναηυγιηόμενθσ διαδικαςίασ. Δεδομζνου ότι μ και Σ είναι οι εκτιμιςεισ κζςθσ και ςυνδιακφμανςθσ, ορίηονται νζεσ εκτιμιςεισ μ και Σ ωσ ηυγιςμζνο μζςο διάνυςμα και ηυγιςμζνθ μζςθ ςυνδιακφμανςθ με ςυνάρτθςθ βάρουσ W(d i ), ( ) {, όπου είναι τα κρίςιμα ςθμεία τθσ Χ i -τετράγωνο κατανομισ με p βακμοφσ ελευκερίασ και επίπεδο ςθμαντικότθτασ α. Συνεπϊσ, κάποιεσ τιμζσ που ενδεχομζνωσ να είχαν διαγραφεί ωσ outliers να επανζλκουν ςτον πίνακα δεδομζνων Χ κακϊσ θ Mahalanobis απόςταςι τουσ είναι μζςα ςτο διάςτθμα τθσ κατανομισ. Ο υπολογιςμόσ τθσ MCD εκτίμθςθσ δεν είναι εφκολοσ. Ενϊ για μικρό αρικμό παρατθριςεων με μικρι διάςταςθ είναι εφικτό να υπολογιςτοφν όλα τα υποςφνολα με h παρατθριςεισ και ζπειτα από αυτά να επιλεγεί το υποςφνολο με τθν μικρότερθ ορίηουςα του πίνακα ςυνδιακφμανςθσ, για μεγάλο n και p δεν είναι εφικτό κάτι τζτοιο. 28

Ο γριγοροσ αλγόρικμοσ Fast-MCD που προτάκθκε από τουσ Rousseeuw και Driessen το 1999 καλείται να λφςει το παραπάνω πρόβλθμα παρουςιάηοντασ μια κατά προςζγγιςθ βζλτιςτθ λφςθ. Ριο ςυγκεκριμζνα, για δεδομζνο μ και Σ, κεωροφμε τισ Mahalanobis αποςτάςεισ d i και τισ βάηουμε ςε αφξουςα ςειρά ( ) ( ) ( ) Ζπειτα επιλζγουμε h παρατθριςεισ που αντιςτοιχοφν ςτισ h μικρότερεσ αποςτάςεισ d i και υπολογίηουμε τθ νζα μζςθ τιμι μ και ςυνδιακφμανςθ Σ. Ο αλγόρικμοσ εκτελεί το παραπάνω βιμα ςυγκζντρωςθσ (concentration step) μζχρισ ότου να ςυγκλίνει και τζλοσ να επιλζξει τθν καλφτερθ λφςθ. Ζνα ακόμθ πρόβλθμα που προζκυψε ιταν αυτό των outliers. Θ ανίχνευςθ των outliers δεν είναι εφκολθ, ειδικά όταν υπάρχουν πολλαπλά outliers προσ τθν ίδια κατεφκυνςθ ι ςυγκεντρωμζνα ςτθν ίδια περιοχι. Στθ περίπτωςθ αυτι όπου τα outliers είναι επικαλυπτόμενα (masked) είναι πολφ δφςκολο να ανιχνευκοφν από τθν κλαςςικι μζκοδο. Για τον λόγο αυτό χρειάςτθκε να γίνουν κάποιεσ τροποποιιςεισ ςτον υπολογιςμό των Mahalanobis αποςτάςεων με βάςθ τισ ανκεκτικζσ εκτιμιςεισ κζςθσ και ςυνδιακφμανςθσ. Οι καινοφργιεσ ανκεκτικζσ αποςτάςεισ Mahalanobis ι ανκεκτικζσ μοχλότθτεσ είναι πιο κατάλλθλεσ για τθν αποκάλυψθ των outliers. Ο υπολογιςμόσ των Mahalanobis αποςτάςεων ςε μια κλαςςικι μζκοδο δίνεται από τον τφπο ( ^) ( ^). Τα ςθμεία με μεγάλθ τιμι d i κεωροφνται ωσ outliers, διότι δείχνουν πόςο μακριά βρίςκεται το x i από το κζντρο μάηασ του πίνακα Χ, λαμβάνοντασ παράλλθλα υπόψθ και τθ δομι του πίνακα ςυνδιακφμανςθσ Σ. Στθ παραπάνω ςχζςθ αντικαταςτικθκαν τα μ και Σ με τισ ανκεκτικζσ τουσ εκτιμιςεισ και τελικά θ ανκεκτικι Mahalanobis απόςταςθ γράφεται ωσ ( ^) ( ^) Δεδομζνου του ότι θ Mahalanobis απόςταςθ d i ακολουκεί τθν, το ςτατιςτικό ςυγκρίνεται με το κρίςιμο ςθμείο. Τζλοσ, όςον αφορά τα x-outliers ζχουν προτακεί τα διαγϊνια ςτοιχεία h i του πίνακα Hat, ( ), ωσ διαγνωςτικά. Ο πίνακασ αυτόσ όμωσ πάςχει από τθ ςυνζπεια τθσ 29

επικάλυψθσ και αυτό οφείλετε ςτθ μονότονθ ςχζςθ μεταξφ h i και d i του x i, τα οποία δίνονται από τον τφπο. Για τον λόγο αυτό δε μπορεί να ανιχνεφςει πάντα τα x-outliers. Ζτςι παρόμοια με τθν ανκεκτικι Mahalanobis απόςταςθ μποροφμε να ορίςουμε τθν ανκεκτικι εκτίμθςθ μοχλότθτασ που δίνεται από τον τφπο, ςτθν οποία θ απόςταςθ d i αντικαταςτικθκε από τθν ανκεκτικι τθσ. Μια αξιόλογθ ανκεκτικι εκτίμθςθ τθσ μοχλότθτασ h i μπορεί να προκφψει από τισ h «καλφτερεσ» παρατθριςεισ, οι οποίεσ παραμζνουν ςτο δείγμα μετά από τθν MCD διαδικαςία. Ζτςι, αν X h είναι ο πίνακασ των ανεξαρτιτων μεταβλθτϊν με τισ h «καλφτερεσ» γραμμζσ, θ ανκεκτικι μοχλότθτα για κάκε παρατιρθςθ x i κα είναι παρόμοια με τθν εξίςωςθ μοχλότθτασ, ( ) Και θ ανκεκτικι μοχλότθτα για τισ παρατθριςεισ οι οποίεσ ζχουν διαγραφεί είναι ( ) όπου το περιζχει τισ h «καλφτερεσ» παρατθριςεισ και επιπλζον τθν x i, θ οποία ζχει διαγραφεί από τθν MCD διαδικαςία. 3.3 LTED εκτιμητόσ Ζνασ ακόμθ ελεγκτισ που είναι εξίςου αποτελεςματικόσ με τον MCD είναι ο LTED(Least Trimmed Euclidean Distance). Ρρόκειται για ζναν ανκεκτικό εκτιμθτι που αναπτφχκθκε από τουσ G.Zioutas και L.Pitsoulis[14]. Ο εκτιμθτισ αυτόσ περιλαμβάνει δφο ςτάδια, αυτό του υπολογιςμοφ τθσ ευκλείδειασ απόςταςθσ όλων των ςθμείων από το διάμεςο κζντρο του data-set. Σε αυτό το ςθμείο να υπενκυμίςουμε ότι θ διάμεςοσ είναι από μόνθ τθσ ανκεκτικι μεταβλθτι και επθρεάηεται πιο δφςκολα από τυχόν outliers. Στο δεφτερο ςτάδιο εφαρμόηεται θ ιδζα του MCD αλγορίκμου. Συγκεκριμζνα με βάςθ τα h καλφτερα ςθμεία που υπολογίςτθκαν από το πρϊτο βιμα, εφαρμόηουμε το βιμα ςυγκζντρωςθσ(concentration step) προκειμζνου να πάρουμε ζνα νζο υποςφνολο από h ςτοιχεία. Αποτελζςματα ζχουν δείξει ότι με τθ διαδικαςία αυτι ο αλγόρικμοσ MCD ςυγκλίνει πολφ πιο γριγορα και τα αποτελζςματα είναι εξίςου αποτελεςματικά. Επίςθσ ο LTED ζχει αποδειχκεί ότι μπορεί να αντεπεξζλκει ακόμθ και ςε αρκετά μολυςμζνα δείγματα. 30

3.3.1 Least trimmed absolute deviations estimator Ασ ξεκινιςουμε υπενκυμίηοντασ τον υπολογιςμό τθσ διαμζςου, τθν οποία κα χρειαςτοφμε ςτθ πρϊτθ φάςθ του εκτιμθτι μασ. Αν υποκζςουμε ζνα δείγμα από N παρατθριςεισ * + τότε ( ) Θ λφςθ τθσ παραπάνω εξίςωςθσ μπορεί να δοκεί εάν κατατάξουμε όλεσ τισ αποςτάςεισ ςε αφξουςα ςειρά και ζπειτα πάρουμε τθ μεςαία τιμι εάν ο ςυνολικόσ αρικμόσ των τιμϊν του δείγματοσ είναι περιττόσ ι το θμιάκροιςμα των 2 μεςαίων τιμϊν εάν ο αρικμόσ του δείγματοσ είναι άρτιοσ. Μποροφμε να ορίςουμε μια πιο ανκεκτικι τιμι τθσ διαμζςου ι οποία ονομάηεται least trimmed absolute deviations(ltad) estimator. Για τον εκτιμθτι αυτόν κάνουμε τθν υπόκεςθ ότι οι n-h παρατθριςεισ του δείγματοσ είναι outliers, όπου h>(n/2). Ζχουμε να λφςουμε το ακόλουκο πρόβλθμα: ( ) Αυτό ςθμαίνει ότι πρζπει να βροφμε το υποςφνολο Τ από h παρατθριςεισ το οποίο ζχει τθν ελάχιςτθ τιμι διαμζςου. Ρροφανϊσ για να ιςχφει θ ςυνκικθ του ςθμείου κατάρρευςθσ κα πρζπει το 0 1. Για να βροφμε τθν ελάχιςτθ τιμι του LTAD, κα μποροφςαμε να υπολογίςουμε τθν παραπάνω τιμι για όλα τα πικανά υποςφνολα του δείγματοσ μασ και ζπειτα να επιλζξουμε τθν ελάχιςτθ τιμι. Κάτι τζτοιο όμωσ είναι υπολογιςτικά ακατόρκωτο όταν το δείγμα είναι αρκετά μεγάλο. Αντί αυτοφ ζχει προτακεί μια λφςθ θ οποία κάνει τον υπολογιςμό μόνο των n-h ςυνεχόμενων υποςυνόλων και θ επιλογι τθσ διαμζςου μασ γίνεται με βάςθ αυτά τα υποςφνολα, δθλαδι των { ( ) ( ) ( )} { ( ) ( ) ( )} { ( ) ( )}. Θ διαδικαςία αυτι απαιτεί μόνο n-h υπολογιςμοφσ διαμζςου κάτι το οποίο ζχει μειϊςει τον χρόνο υπολογιςμοφ μασ ςε ( ). 31

3.3.2 Least trimmed Euclidean distance estimator Ασ υποκζςουμε τθν πολυδιάςτατθ μορφι κατά τθν οποία ζχουμε παρατθριςεισ * + όπου τα. Σε αυτό το ςθμείο να ποφμε ότι τα πολλά δεδομζνα προσ διαφορετικζσ κατευκφνςεισ μπορεί να μθν είναι ομοιόμορφα. Για τον λόγο αυτό κα χρειαςτοφμε μία ανακατανομι(rescale). Ορίηουμε τον πίνακα ωσ ζναν πίνακα n x p με γραμμζσ τισ παρατθριςεισ. Για κάκε μία ςτιλθ του X ορίηουμε ςαν ({ }) και ςτιλεσ τισ τθ διάμεςθ τιμι κάκε ςτιλθσ, που υπολογίηεται όπωσ είδαμε ςτθ προθγοφμενθ ενότθτα και ςαν ({ }) όπου οι διάμεςοι των απόλυτων αποκλίςεων. Θ ανακατανομι των δεδομζνων απαιτεί τθν αντικατάςταςθ κάκε παρατιρθςθσ με Ζτςι υποκζτοντασ ότι ζχουμε κάνει τθν ανακατανομι των δεδομζνων μασ και ότι ο πίνακασ που προζκυψε είναι ο * + μποροφμε να ςυνεχίςουμε. Μια γενίκευςθ των ςχζςεων που είδαμε ςτθ προθγοφμενθ ενότθτα για πολυδιάςτατο πίνακα είναι να ορίηεται θ L 1 -διάμεςοσ ωσ: ( ) όπου ςυμβολίηει τον Ευκλείδειο κανόνα. Ομοίωσ, ( ) ςυμβολίηει το υποςφνολο h των παρατθριςεων του πίνακα το οποίο ζχει τθν μικρότερθ θ L 1 -διάμεςοσ. Ωςτόςο όςο αυξάνει θ διάςταςθ του πίνακα ςε p, χάνουμε τθ δυνατότθτα να κατατάξουμε ςε ςειρά τισ τιμζσ και να υπολογίςουμε τα n-h υποςφνολα όπωσ κάναμε προθγουμζνωσ προκειμζνου να βροφμε το ελάχιςτο. Για αυτό τον λόγο κα 32

προτείνουμε κάποιεσ απαραίτθτεσ τεχνικζσ που κα μασ βοθκιςουν να υπολογίςουμε τθν LTED. Ζςτω κάποιο και, ορίηουμε ( ) να ςυμβολίηει το άκροιςμα των αποςτάςεων των ςθμείων του Θ από το m. Ακόμθ ( ) να ςυμβολίηει το ςφνολο από h παρατθριςεισ του αποςτάςεισ από το m. με τισ μικρότερεσ Ευκλείδειεσ Σφμφωνα με τα παραπάνω μποροφμε να ορίςουμε τον αλγόρικμο που κα μασ δϊςει το υποςφνολο Θ του με τισ μικρότερεσ Ευκλείδειεσ αποςτάςεισ. Ο αλγόρικμοσ αυτόσ επιλζγει ζνα τυχαίο υποςφνολο αποτελοφμενο από h δεδομζνα. Για το υποςφνολο αυτό υπολογίηει τισ L 1 -διάμεςουσ οι οποίεσ είναι απαραίτθτεσ για τον υπολογιςμό τθσ ( ( ) ), το οποίο περιζχει τα h ςθμεία από τον των οποίων οι αποςτάςεισ από τθ διάμεςο είναι οι ελάχιςτεσ. Εάν ( ( ) ), τότε οι παρατθριςεισ ςτο ( ( ) ) ζχουν μικρότερεσ L 1 -διάμεςουσ από αυτζσ ςτο Θ. Οπότε ςυνεχίηουμε τθ διαδικαςία κζτοντασ ( ( ) ) και επαναλαμβάνουμε το προθγοφμενο βιμα. Μετά από μερικζσ επαναλιψεισ ο αλγόρικμοσ μασ κα ςυγκλίνει και κα ζχουμε το επικυμθτό αποτζλεςμα. Ζχει αποδειχκεί ότι αρικμόσ των επαναλιψεων αυτϊν είναι πεπεραςμζνοσ. Μζχρι τϊρα για τθν απομάκρυνςθ ςτοιχείων από το δείγμα μασ ζχουμε χρθςιμοποιιςει μόνο τθν διάμεςο βαςιηόμενοι ςτθν ευκλείδεια απόςταςθ. Αυτό πρακτικά ςθμαίνει ότι είναι αρκετά πικανό να ζχουμε απομακρφνει δεδομζνα από το δείγμα μασ τα οποία είναι καλζσ παρατθριςεισ, τα λεγόμενα good leverage points. Τα ςθμεία αυτά ζχουν μεγάλο 33

αρικμό ςυνδιακφμανςθσ με το υπόλοιπο δείγμα μασ και για το λόγο αυτό πρζπει να τα ειςάγουμε ξανά ςτο υποςφνολο μασ. Ζτςι ςε αυτό το ςθμείο κα χρειαςτεί να υπολογίςουμε τισ μζςεσ τιμζσ κάκε ςτιλθσ του πολυδιάςτατου πίνακα Χ που ορίςαμε προθγουμζνωσ, κακϊσ και να ορίςουμε τον πίνακα ςυνδιακφμανςθσ. Ωσ γνωςτόν θ μζςθ τιμι δίνεται από τον τφπο: ( ) Εκφράηουμε τισ μζςεσ τιμζσ των ςτθλϊν του πίνακα και τον πίνακα ςυνδιακφμανςθσ με ( ( ) ( ) ( )) και ( ) ( ) αντίςτοιχα. Αν τα παραπάνω υπολογίηονται για τον πίνακα Θ που μασ ζχει δοκεί από το πρϊτο ςκζλοσ του αλγορίκμου, τότε κα τα ςυμβολίηουμε με μ Θ και Σ Θ. Βαςιηόμενοι πλζον ςτον αλγόρικμο MCD του Rousseeuw υπολογίηουμε τθν Mahalanobis απόςταςθ, που όπωσ ζχουμε αναλφςει ςτο προθγοφμενο κεφάλαιο είναι: ( ) ( ) ( ) Θ Mahalanobis απόςταςθ ουςιαςτικά εξετάηει το κατά πόςο απζχει ζνα ςθμείο από το ςφνολο των δεδομζνων. Θα ορίςουμε ξανά ζνα ςφνολο Υ το οποίο κα περιζχει τισ h τιμζσ του πινάκα X με τισ μικρότερεσ Mahalanobis αποςτάςεισ. ( ) ( ) Και ο αλγόρικμοσ που μασ δίνει το τελικό κακαρό, χωρίσ outliers πλζον, υποςφνολο είναι: 34

Στον παραπάνω αλγόρικμο ςτθ γραμμι 1 καλοφμε το πρϊτο ςκζλοσ για να πάρουμε ζνα κακαρό, ςφμφωνα με τθν διάμεςθ απόςταςθ, υποςφνολο του X. Στθ ςυνζχεια ςτισ γραμμζσ 2-4 εκτελοφμε το βιμα ςυγκζντρωςθσ(concentration step) του αλγορίκμου του MCD και καταλιγουμε να κρατιςουμε τα ςθμεία του H με τθν καλφτερθ ςυνδιακφμανςθ. Τζλοσ ζχουμε ειςάγει ζνα τμιμα κϊδικα που αφορά τθν επανζνταξθ ςτοιχείων με υψθλι ςυνδιακφμανςθ τα οποία πικανϊσ να είχαν αποβλθκεί από το υποςφνολό μασ κατά το πρϊτο μζροσ του αλγορίκμου. 35

Ζνα χαρακτθριςτικό παράδειγμα είναι αυτό που φαίνεται ςτο ςχιμα* +, κατά το οποίο τα ςθμεία των δεδομζνων μασ ακολουκοφν μια ελλειψοειδι κατανομι. Στο παράδειγμα αυτό το πρϊτο ςκζλοσ του αλγορίκμου κα ζχει τθν τάςθ να φζρει τθν ζλλειψθ μασ ςε μια πιο κυκλικι μορφι λόγω του ότι λαμβάνει ωσ υπόψθ του μονό τθν ευκλείδεια απόςταςθ από τθ διάμεςο του δείγματοσ. Ζτςι το υποςφνολο που κα προκφψει μετά το πρϊτο μζροσ κα τείνει να είναι πιο κυκλικό, αποβάλλοντασ ζτςι και χριςιμα ςτοιχεία του δείγματοσ μασ. Ππωσ φαίνεται από το ςχιμα τα ςθμεία 17,18,19 και 22 δεν ζχουν ςυμπεριλθφκεί. Κατά το δεφτερο ςτάδιο, κα εξεταςτεί θ ςυνδιακφμανςθ των ςτοιχείων αυτϊν και τελικά κα ςυμπεριλθφκοφν ξανά ςτο δείγμα μασ. Τα ςθμεία τα οποία ζχουν μείνει εκτόσ είναι και αυτά τα οποία βλζπουμε ότι δεν ζχουν καμιά ςχζςθ με τα υπόλοιπα δεδομζνα. 3.4 ύγκριςη αλγορύθμων Οι δφο αλγόρικμοι παρουςιάηουν κοινά ςθμεία όπωσ τθ χριςθ του πίνακα ςυνδιακφμανςθσ και τθν Mahalanobis απόςταςθ προκείμενου να ςυγκλίνουν ςτο τελικό «κακαρό» υποςφνολο δεδομζνων. Θ αρχι τουσ ωςτόςο είναι εντελϊσ διαφορετικι. Ο MCD κα ξεκινιςει τθ διαδικαςία επιλζγοντασ ωσ μετρθτικι μόνο τθν Mahalanobis απόςταςθ. Αυτό ζχει ωσ αποτζλεςμα, ο αρικμόσ ςυγκρίςεων που κα κάνει μζχρι να ςυγκλίνει να είναι αρκετά μεγάλοσ κάτι που κοςτίηει ςε χρόνο. Από τθν άλλθ, ο αλγόρικμοσ LTED ξεκινάει από ζνα ιδθ κακαρό υποςφνολο με βάςθ τθν εφκολα υπολογίςιμθ ευκλείδεια απόςταςθ και ςτθ ςυνζχεια εξετάηει τθ ςυνδιακφμανςθ των ςτοιχείων και τθν επανζνταξθ τουσ ςτο υποςφνολο εφόςον αυτά κεωρθκοφν ότι είναι outliers καλισ μοχλότθτασ. Θ διαφορά αυτι των δυο αλγορίκμων ζχει ωσ αποτζλεςμα ο LTED να είναι ταχφτεροσ ςε ςχζςθ με τον MCD, ςυγκλίνοντασ ςε μόνο τρεισ-τζςςερισ επαναλιψεισ. Εκτόσ αυτοφ, είναι εξίςου αποτελεςματικόσ και παρουςιάηει καλφτερα χαρακτθριςτικά ανκεκτικότθτασ. Ρροκειμζνου να εξετάςουμε τθν αποτελεςματικότθτα των αλγορίκμων χρθςιμοποιιςαμε μια προςομοίωςθ με μολυςμζνα δεδομζνα παρόμοια με αυτά που παρουςιάηονται από τον Roelant and van Aelst. Σε κάκε προςομοίωςθ παράγουμε δεδομζνα με κανονικι κατανομι ( ) με p=3 και μζγεκοσ δεδομζνων n=100. Για να μολφνουμε τα δεδομζνα μασ, ξεκινάμε με τα δεδομζνα κανονικισ κατανομισ και ζπειτα αντικακιςτοφμε τα 20,30 και 40% από αυτά με δεδομζνα τα οποία παράγουμε ςφμφωνα με τθν κατανομι ( ). Στον παρακάτω πίνακα φαίνονται τα αποτελζςματα των δφο αλγορίκμων. 36

Για μόλυνςθ μζχρι 20% βλζπουμε ότι οι δυο μζκοδοι ανταγωνίηονται. Για παραπάνω μόλυνςθ ωςτόςο ο LTED υπερζχει του MCD και αποδίδει μζςεσ τιμζσ πιο κοντά ςτο 0. 3.5 L1-penalized mean variance method (V1) Οι μζκοδοι που είδαμε προθγουμζνωσ ςτθρίηονται ςε ανκεκτικζσ μεκόδουσ ςτατιςτικισ οι οποίεσ προςπακοφν να αυξιςουν τθν ςτακερότθτα τθσ μζςθσ τιμισ και του πίνακα τθσ ςυνδιακφμανςθσ των return. Εφόςον καταφζρουν να περιορίςουν τθν επιρροι των outliers, τα ανανεωμζνα δεδομζνα επιςτροφισ τείνουν να ζχουν μικρότερθ επίπτωςθ ςτον ανκεκτικό μζςο όρο και ςτον πίνακα ςυνδιακφμανςθσ,, ακόμθ και αν οριςμζνα διανφςματα επιςτροφισ περιζχουν ζκτοπεσ παρατθριςεισ. Σε αυτι τθν ενότθτα κα παρουςιάςουμε μια διαφορετικι προςζγγιςθ, μελετϊντασ τουσ ανκεκτικοφσ εκτιμθτζσ ποινισ (penalization-based robust estimators) για να αυξιςουμε τθ ςτακερότθτα του μοντζλου και να μειϊςουμε το turnover. 37

Θ επίλυςθ του προβλιματοσ που εξετάςαμε ςτο προθγοφμενο κεφάλαιο δίνεται από τθ ςχζςθ: θ οποία μπορεί όμωσ να γραφεί χωρίσ τον πίνακα ςυνδιακφμανςθσ ωσ: ( ) Ο Lauprete[13+ για τθν βελτίωςθ τθσ παραπάνω μεκόδου προςπακεί να περιορίςει τισ αποκλίςεισ των weights από τιμζσ τισ οποίεσ ονομάηει market weights και ορίηει ωσ, όπου M j θ πραγματικι αξία τθσ μετοχισ ςτθν αγορά. Με τον τρόπο αυτόν επικυμεί να περιορίςει τθν επιρροι των outliers. Ζτςι ειςάγει ςτθν παραπάνω ςχζςθ ζνα penalty ζνα τα weights αποκλίνουν και τελικά θ ςχζςθ γίνεται: ( ( ) ( )) ( ) Ορίηοντασ ζνα μεγάλο λ ςτθ ςχζςθ ςθμαίνει ότι εμπιςτευόμαςτε τον δείκτθ του χρθματιςτθρίου και δε κζλουμε οι τιμζσ από τα βάρθ μασ να μθν αποκλίνουν από αυτόν. Αντίκετα μικρό λ ςθμαίνει μια πιο ελαςτικι ςχζςθ μεταξφ δείκτθ χρθματιςτθρίου και βαρϊν. Αφινεται λοιπόν ςτθ κρίςθ του επενδυτι το πόςο κζλει να ορίςει το λ. Ωςτόςο μελζτεσ ζχουν δείξει ότι αν ο δείκτθσ είναι αξιόπιςτοσ (ι ςχεδόν αξιόπιςτοσ όπωσ πολλζσ) τότε πρζπει να ζχει πρωταρχικό ρόλο ςτθν επίλυςθ του προβλιματοσ μασ. 38