Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 0 ου Πανελληνίου Συνεδρίου Στατιστικής (007), σελ -8 ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΠΡΟΒΛΕΨΗΣ ΠΟΛΥΜΕΤΑΒΛΗΤΩΝ ΧΡΟΝΟΣΕΙΡΩΝ ΜΕ ΜΟΝΤΕΛΑ ΔΥΝΑΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Βλάχος Ιωάννης, Κουγιουμτζής Δημήτρης Γενικό Τμήμα, Πολυτεχνική Σχολή ΑΠΘ vlaxos@gen.auth.gr, dkugu@gen.auth.gr ΠΕΡΙΛΗΨΗ Μοντέλα δυναμικής παλινδρόμησης (ή αλλιώς αυτοπαλινδρομούμενα μοντέλα καταμερισμένων υστερήσεων) εφαρμόζονται για την πρόβλεψη πολυμεταβλητών χρονοσειρών σε διάφορους κλάδους, όπως οικονομετρία, μετεωρολογία και ιατρική. Σε αυτή την εργασία μελετάμε την απόδοση των μοντέλων αυτών σε ειδικές συνθήκες δεδομένων, όπως πολυσυγγραμμικότητα και ανάδραση, καθώς και τη βέλτιστη επιλογή παραμέτρων. Αξιολογούμε γνωστές κλάσεις μοντέλων δυναμικής παλινδρόμησης κάνοντας χρήση μεθόδων κανονικοποίησης στην εκτίμηση των παραμέτρων, όπως παλινδρόμηση κυρίων συνιστωσών και μέθοδο μερικών ελαχίστων τετραγώνων. Διερευνούμε με Monte Carlo προσομοιώσεις τη βελτιστοποίηση της προβλεπτικής ικανότητας των μοντέλων.. ΕΙΣΑΓΩΓΗ Για την πρόβλεψη μιας πολυμεταβλητής χρονοσειράς είναι σημαντικό να μοντελοποιηθούν οι αλληλεπιδράσεις μεταξύ των επιμέρους μεταβλητών του συστήματος σε χρονικές υστερήσεις. Οι μεταβλητές μπορεί να αφορούν το ίδιο μέγεθος σε διαφορετικούς «τόπους» (π.χ. κανάλια ηλεκτροεγκεφαλογραφήματος), ή διαφορετικά αλλά συσχετισμένα μεταξύ τους μεγέθη (π.χ. χρηματοοικονομικά προϊόντα). Η ανάλυση πολυμεταβλητών χρονοσειρών συχνά γίνεται με επέκταση μοντέλων μονομεταβλητών χρονοσειρών [We 005, Pankratz 00]. Σε ειδικές συνθήκες πολυμεταβλητών δεδομένων, όπως ανάδραση και πολυσυγγραμμικότητα, που δημιουργούν «ψευδείς» συσχετίσεις [Granger et. al 00] (είτε ανάμεσα σε διαφορετικές χρονοσειρές, είτε αυτοσυσχετίσεις στην ίδια χρονοσειρά), υπάρχει η δυνατότητα βελτίωσης αυτών των μοντέλων. Σε αυτήν την εργασία μελετάμε μεθόδους κανονικοποίησης μοντέλων πολυμεταβλητών χρονοσειρών και συγκρίνουμε την ικανότητα πρόβλεψης των διαφόρων τεχνικών χρησιμοποιώντας Monte Carlo προσομοιώσεις.. ΠΟΛΥΜΕΤΑΒΛΗΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ Οι δύο πιο γνωστές κλάσεις μοντέλων πολυμεταβλητών χρονοσειρών είναι το διανυσματικό αυτοπαλινδρομούμενο μοντέλο (vector autoregressve - VAR) [We - -
005] και το μοντέλο δυναμικής παλινδρόμησης (dynamc regresson - DR) [Pankratz 00]. Μοντέλο VAR(k) : Το VAR αποτελεί γενίκευση του μονοδιάστατου αυτοπαλινδροx = x, x x ' για μούμενου μοντέλου (AR) σε πολυμεταβλητή χρονοσειρά [ ] t t t nt χρόνους t=,...,ν. Το μοντέλο VAR ορίζεται ως x = a + A x + A x + + A x + e = a + A x + e όπου ( ) t+ 0 t t k t k+ t 0 B t t k- a είναι ένα διάνυσμα σταθερών όρων και A( B) = A + A B+ + A B 0 k είναι πολυώνυμο πινάκων τάξης k- του τελεστή υστέρησης Β και e t διάνυσμα λευκού θορύβου. Η εκτίμηση παραμέτρων του VAR είναι αντίστοιχη με αυτήν για το AR αλλά σε διανύσματα (π.χ. αντί για άθροισμα τετραγώνων σφαλμάτων έχουμε άθροισμα μέτρων διανυσμάτων σφαλμάτων στο τετράγωνο). Η διανυσματική μορφή του VAR θέτει περιορισμούς στην εκτίμηση των παραμέτρων του (για μεγάλο n η επίλυση για τους πίνακες A μπορεί να είναι αριθμητικά ασταθής) και στην πρόβλεψη (μια συνολικά βέλτιστη προσαρμογή μπορεί να μην είναι η κατάλληλη για την πρόβλεψη μιας συνιστώσας). Μοντέλο DR(k,k,,k n ) : Το μοντέλο DR για την πρόβλεψη μιας συνιστώσας x t του έχει την μορφή x t ( ) ( ) ( ) x = t a + 0 a B x + t a B x + + t + an B xn t + et () όπου α 0 σταθερός όρος, α j πολυώνυμα τάξης k j - του B με j=,,...,n, και e t λευκός θόρυβος. Η πρόβλεψη x t+ δίνεται από το γραμμικό συνδυασμό των συνιστωσών του xt αλλά σε διαφορετικές υστερήσεις για κάθε συνιστώσα. Αν όλα τα kj είναι ίσα μεταξύ τους για όλες τις χρονοσειρες έχουμε ταύτιση με το μοντέλο VAR. Το μοντέλο δυναμικής παλινδρόμησης είναι μία άλλη γενίκευση του γνωστού αυτοπαλινδρομούμενου μοντέλου προσθέτοντας υστερήσεις και από άλλες χρονοσειρές. Εναλλακτικά μπορούμε να το δούμε ως μια ειδική περίπτωση μοντέλου πολλαπλής παλινδρόμησης θεωρώντας και υστερήσεις των ανεξάρτητων μεταβλητών. Δεδομένου αυτού μπορούμε να χρησιμοποιήσουμε γνωστές μεθόδους τόσο από την ανάλυση χρονοσειρών, όσο και από την πολλαπλή παλινδρόμηση στην εκτίμηση ενός τέτοιου μοντέλου. Ο προσδιορισμός μοντέλου δυναμικής παλινδρόμησης συνιστά την εκτίμηση των τάξεων k,k,,k n των πολυωνύμων και τις παραμέτρους αυτών. Θα μελετήσουμε τέσσερις τρόπους επιλογής τάξεων και τρεις μεθόδους εκτίμησης παραμέτρων, δηλαδή συνολικά δώδεκα μεθόδους μοντελοποίησης. 3. ΜΕΘΟΔΟΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗΣ 3. Εκτίμηση τάξεων Παρουσιάζουμε συνοπτικά τις τέσσερις μεθόδους εκτίμησης τάξεων των μοντέλων που εκφράζονται από τη σχέση () με ένα απλό παράδειγμα δύο - -
χρονοσειρών για κάθε περίπτωση στα γραφήματα (α) έως (δ). Σε όλες τις περιπτώσεις θέλουμε να προβλέψουμε την x t και η επιλογή τάξης (μέχρι κάποια μέγιστη τάξη Κ mx ) γίνεται με κριτήριο πληροφορίας (στην περίπτωση μας με το κριτήριο BIC [Schwarz 978]). )Διερεύνηση για όλους τους συνδυασμούς τάξεων μοντέλων DR (FULL σχ. α) )Βέλτιστη τάξη μοντέλου VAR. Αυτή η μέθοδος ισοδυναμεί με την χρήση μοντέλου VAR [We 005] (VAR σχ. β) 3)Βέλτιστη τάξη ως προς κάθε συνιστώσα ξεχωριστά [Peña 006] (Component Wse - CW σχ. γ) 4)Ακολουθούμε τη 3) για να βρούμε τη συνολικά βέλτιστη τάξη και υπολογίζουμε τα υπόλοιπα από προσαρμογή με την αντίστοιχη χρονοσειρά. Επαναλαμβάνουμε την ίδια διαδικασία με τις εναπομείναντες χρονοσειρές, όπου κάθε φορά στη θέση της x t είναι η χρονοσειρά των νέων υπολοίπων (Resdual CW - RCW σχ. δ) Σχήμα. Οι τέσσερις μέθοδοι εκτίμησης τάξεων στην περίπτωση δύο μεταβλητών. FULL (α) VAR (β) () Προσαρμογή στην x t μοντέλων {DR(,j),j=, K mx } () Προσαρμογή στην {x t,x t } μοντέλων {VAR() =, K mx } () Επιλογή βέλτιστων k,k με ΒIC () Επιλογή βέλτιστου k=k =k με ΒIC CW () () (γ) Προσαρμογή στην x t μοντέλων {DR(,0) =, K mx } Επιλογή βέλτιστου k με ΒIC RCW (δ) () Βήματα ()-(4) όπως στο (γ) () Επιλογή βέλτιστου από k,k, έστω k. Υπολογισμός χρονοσειράς υπολοίπων e t (3) Προσαρμογή στην x t μοντέλων {DR(0,j) j=, K mx } (3) Προσαρμογή στην {e t,x t } μοντέλων {DR(0,j) j=, K mx } (4) Επιλογή βέλτιστου k με ΒIC (4) Επιλογή βέλτιστου k με ΒIC 3. Εκτίμηση παραμέτρων Θεωρώντας ότι οι χρονοσειρές είναι κεντραρισμένες, έχουμε να εκτιμήσουμε το διάνυσμα b των συντελεστών των πολυωνύμων υστέρησης μεγέθους K = k, = όπου {k,k k n } οι τάξεις του DR μοντέλου πρόβλεψης της xt. Η λύση για το b δίνεται από την ελαχιστοποίηση του σφάλματος e στη σχέση y = Xb + e όπου Χ ο πίνακας υστέρησης με γραμμές t=,,n και = [,, ] y x x '. t+ N+ x t = x t, x t,, x t k+, xt, xt,, x nt kn+ για n - 3 -
Έστω η ανάλυση σε ιδιάζουσες τιμές του Χ, = dag( σ, σ σ K ) Τ V V =ΙK K και X= UΣV Σ όπου { σ σ }, K T με Τ UU =ΙN N, οι ιδιάζουσες τιμές του Χ σε φθίνουσα σειρά και Ι ο μοναδιαίος πίνακας. Οι τρεις εκτιμήσεις του b είναι: Τ ) Ελαχίστων τετραγώνων (Ordnary Least Squares), bols = VΣ Uy. ) Παλινδρόμησης με q K κύριες συνιστώσες (Prncpal Components Regresson), Τ b = VΣ Λ Uy, όπου Λ PCR διαγώνιος πίνακας με στις q πρώτες θέσεις που PCR PCR αντιστοιχούν σε σημαντικές κύριες συνιστώσες και 0 στις υπόλοιπες. 3) Μερικών ελαχίστων τετραγώνων με q K συνιστώσες (Partal Least Squares) Τ b = VΣ Λ Uy, όπου Λ PLS διαγώνιος πίνακας με PLS PLS λ = Π ( σ θ ), T T =,,,K, θ j ιδιοτιμές του πίνακα WXXW q και W q ο πίνακας της ορθοκανονικής βάσης του χώρου Krylov: { ( ) ( ) } T T T T q Xy XXXy XX Xy T span,,,. Οι PCR και PLS μέθοδοι αποτελούν κανονικοποίηση της OLS και συρρικνώνουν το χώρο που δημιουργούν οι γραμμές του πίνακα Χ [Lngjærde and Chrstophersen 000, Stock and Watson 00]. Η χρήση τους είναι συχνή στην πολλαπλή παλινδρόμηση όταν υπάρχει πολυσυγγραμμικότητα με την PCR να αφαιρεί συνιστώσες που αντιστοιχούν σε ασήμαντες ιδιάζουσες τιμές και την PLS να σταθμίζει την κάθε συνιστώσα με την συμβολή της στην πρόβλεψη. 4. MONTE CARLO ΠΡΟΣΟΜΟΙΩΣΕΙΣ 4. Σχεδιασμός Monte Carlo προσομοιώσεων Μελετούμε κάποια απλά συστήματα με ανάδραση και πολυσυγγραμμικότητα μεταβαλλόμενης ισχύος σε χρονοσειρές διαφορετικού μήκους (Ν=00,00,400). Χωρίζουμε κάθε χρονοσειρά στο σύνολο εκμάθησης μήκους ¾Ν και στο σύνολο ελέγχου μήκους R=¼Ν. Βρίσκουμε στο σύνολο εκμάθησης το βέλτιστο μοντέλο με τις τέσσερις μεθόδους και εκτιμούμε τις παραμέτρους για κάθε μοντέλο με τις τρεις μεθόδους εκτίμησης όπου η επιλογή της παραμέτρου q γίνεται με διασταυρωμένη επικύρωση (cross valdaton) στο σύνολο εκμάθησης. Αξιολογούμε στο σύνολο ελέγχου την προβλεπτική ικανότητα των διαφορετικών μεθόδων μοντελοποίησης με την κανονικοποιημένη ρίζα του μέσου τετραγωνικού σφάλματος (NRMSE). Για κάθε περίπτωση (σύστημα και μήκος χρονοσειράς Ν) κάνουμε 000 Monte Carlo επαναλήψεις και υπολογίζουμε το μέσο NRMSE. Για τη συνολική αξιολόγηση της κάθε μεθόδου j=,,..., υπολογίζουμε ένα δείκτη απόδοσης (score) S j. Για κάθε μία από Μ συνολικά περιπτώσεις, δηλαδή όλες τις χρονοσειρές από διαφορετικά συστήματα, και για τα διαφορετικά μήκη Ν q q j= j - 4 -
υπολογίζουμε πρώτα το λόγο θορύβου προς σήμα σ σ, που αντιστοιχεί στο NRMSE αναφοράς (το εκτιμώμενο μοντέλο είναι το πραγματικό). Αν σ είναι η διασπορά του σφάλματος πρόβλεψης του μοντέλου με την j μέθοδο στην περίπτωση, τότε ο δείκτης S j ορίζεται ως M M σ e σ j eˆ Sj = ( σe σ ) j ( ) x σ σ eˆ x σ e σ x = = = ( σx σ ) e. Ο δείκτης S j δείχνει πόσο καλά μία μέθοδος j προσεγγίζει το πραγματικό μοντέλο σε διαφορετικές περιπτώσεις κανονικοποιώντας το σφάλμα πρόβλεψης ως προς την διασπορά της χρονοσειράς και το θόρυβο εισόδου σε κάθε περίπτωση. 4. Monte Carlo αποτελέσματα για ύπαρξη ανάδρασης ) Αρχικά θεωρούμε 4 χρονοσειρές από μοντέλο VAR() 0.3 0 0 0 0.5 0 0 0. 0.4 0 0.7-0.9 0 0.3 0. 0 x t + + t+ = x x 0.7-0.6-0.5 0 0 0. 0. 0.4 t e 0.3-0. 0-0.4 0 0 0 0.6 με et N( 0,0. Ι4 4). Οι τιμές του μέσου NRMSE για τις μεθόδους με Κ mx =7 παραθέτονται στον Πίνακα, όπου σε κάθε περίπτωση με μαύρο είναι η μικρότερη τιμή και με γκρι οι μικρότερες με προσέγγιση δεύτερου δεκαδικού ψηφίου. Η χρήση των PCR και PLS δε βελτιώνει την εκτίμηση των παραμέτρων, και από τις μεθόδους εκτίμησης των τάξεων οι FULL και VAR υπερτερούν, με τις άλλες δύο να συγκλίνουν σε αυτές όσο μεγαλώνει το N. Σημειώνεται ότι η μέθοδος CW που χρησιμοποιείται πιο συχνά υστερεί σε σχέση με τη VAR. Πίνακας. Μέσο NRMSE για τις 4 χρονοσειρές του VAR συστήματος. FULLols FULLpls FULLpcr VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 0,909 0,909 0,9 0,9 0,905 0,9 0,949 0,949 0,95 0,94 0,94 0,943 0,54 0,54 0,543 0,538 0,54 0,544 0,7 0,73 0,75 0,6 0,6 0,6 0,609 0,6 0,6 0,594 0,595 0,597 0,697 0,697 0,7 0,68 0,68 0,683 0,34 0,34 0,34 0,353 0,354 0,355 0,443 0,444 0,446 0,355 0,354 0,355 N=00 0,864 0,864 0,866 0,866 0,868 0,873 0,895 0,895 0,896 0,873 0,873 0,874 0,57 0,57 0,57 0,57 0,58 0,59 0,668 0,668 0,67 0,554 0,554 0,555 0,568 0,569 0,569 0,558 0,559 0,56 0,637 0,638 0,64 0,583 0,584 0,584 0,304 0,304 0,304 0,307 0,308 0,308 0,36 0,36 0,363 0,303 0,304 0,304 N=400 0,85 0,85 0,85 0,853 0,854 0,854 0,859 0,859 0,859 0,857 0,857 0,857 0,509 0,509 0,509 0,508 0,508 0,509 0,66 0,67 0,67 0,59 0,59 0,59 0,53 0,53 0,53 0,58 0,58 0,58 0,548 0,548 0,549 0,536 0,536 0,537 0,73 0,73 0,73 0,74 0,74 0,74 0,87 0,87 0,88 0,73 0,73 0,73 ) Θεωρούμε 8 διμεταβλητά συστήματα, όπου για κάθε σύστημα η μια χρονοσειρά παράγεται από μοντέλο DR(k,k ) και η άλλη από DR(k,k ) k,k,k,k =,,3. Οι παράμετροι των συστημάτων υπολογίζονται από την προσαρμογή του αντίστοιχου ευσταθούς μοντέλου σε τυχαία δημιουργούμενη e x t j ê - 5 -
διμεταβλητή χρονοσειρά VAR(4) με ισχυρές συσχετίσεις σε χρόνους υστέρησης τουλάχιστον μέχρι 3. Ενδεικτικά αποτελέσματα για το σύστημα με χρονοσειρές DR(,3) και DR(,) δίνονται στον Πίνακα. Βλέπουμε πάλι ότι η χρήση της PCR ή της PLS δε βελτιώνει την πρόβλεψη και γενικά η βέλτιστη μέθοδος αλλάζει με το N και το σύστημα, όπως έδειξαν και τα αποτελέσματα για τα άλλα DR συστήματα. Στον Πίνακα 3 δίνεται ο δείκτης απόδοσης S j για το σύνολο των *8=6 χρονοσειρών των συστημάτων. Παρατηρούμε ότι η VAR μέθοδος αποδίδει καλύτερα σε μικρά μήκη, η FULL ικανοποιητικά σε όλες τις περιπτώσεις και ότι όσο μεγαλώνει το δείγμα μας οι μέθοδοι συγκλίνουν ως προς την απόδοση τους. Πίνακας. Μέσο NRMSE για DR(,3) (πρώτη σειρά) και DR(,) (δεύτερη σειρά). FULLols FULLpls FULLpcr VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 0,69 0,69 0,693 0,69 0,69 0,693 0,73 0,73 0,74 0,698 0,698 0,699 0,84 0,84 0,84 0,84 0,84 0,85 0,83 0,88 0,89 0,837 0,837 0,837 N=00 0,635 0,635 0,635 0,634 0,634 0,635 0,637 0,637 0,638 0,635 0,635 0,635 0,799 0,799 0,799 0,796 0,796 0,796 0,797 0,797 0,798 0,806 0,805 0,806 N=400 0,6 0,6 0,6 0,6 0,6 0,6 0,6 0,6 0,63 0,609 0,609 0,609 0,79 0,79 0,79 0,79 0,79 0,79 0,787 0,787 0,787 0,79 0,79 0,79 Πίνακας 3. Δείκτης απόδοσης για τις μεθόδους στο σύνολο των 6 χρονοσειρών FULLols FULLpls FULLpcr VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 0,568 0,57 0,579 0,47 0,48 0,453,367,36,387,096,097,05 N=00 0,77 0,78 0,8 0,87 0,89 0,96 0,84 0,86 0,30 0,376 0,379 0,38 N=400 0,06 0,06 0,06 0,07 0,07 0,07 0,095 0,096 0, 0,67 0,67 0,69 4.3 Monte Carlo αποτελέσματα για ύπαρξη πολυσυγγραμμικότητας Για τη δημιουργία πολυδιάστατων χρονοσειρών με πολυσυγγραμμικότητα συμπλέκουμε χρονοσειρές από AR μοντέλα. ) Δημιουργούμε 7 χρονοσειρές AR() x t + = α x t + e t, e t ~ N(0, 0.), με α ~ U ([-0.9,-0.6] [ 0.6,0.9] ). Στις 6 χρονοσειρές για =,3,,7 προσθέτουμε την η = + με χρονοσειρά, σταθμισμένη με έναν συντελεστή επικάλυψης { x t} { x t} c { x t} c { 0,0.5,,,4}. Τέλος δημιουργούμε μία 8 η, { x } = { x } + { x } + { x }. ( ) 8t t 3t 4t 3 Εφαρμόζουμε τις μεθόδους μοντελοποίησης για πρόβλεψη της 8 ης χρονοσειράς από τις 8 του συστήματος με Κ mx =3. Το μέσο NRMSE δίνεται στον Πίνακα 4. Βλέπουμε πάλι ότι η χρήση PCR, PLS δεν βοηθάει σημαντικά, καμιά μέθοδος δεν φτάνει την FULL. Όσο μεγαλώνει το δείγμα οι αποδόσεις των μεθόδων συγκλίνουν. Όταν όμως η πολυσυγγραμμικότητα είναι ισχυρή (c=4) η χρήση PLS στις μεθόδους VAR, CW μειώνει το μέσο NRMSE στα επίπεδα του βέλτιστου ειδικά για μικρά Ν. ) Διερευνάμε την πολυσυγγραμμικότητα σε μεγαλύτερο σύστημα 6 χρονοσειρών που παράγονται όπως παραπάνω με την 6 η ναι είναι ο μέσος όρος των χρονοσειρών έως 6. Προβλέπουμε πάλι την 6 η από όλες με Κ mx =3 και τα αποτελέσματα δίνονται στον Πίνακα 5 (η μέθοδος FULL δεν ήταν δυνατό να υπολογιστεί εδώ καθώς τα μοντέλα προς υπολογισμό έφταναν τα 4 δισεκατομμύρια). - 6 -
Η χρήση μεθόδων κανονικοποίησης και ιδιαίτερα η PLS βοηθάνε τις μεθόδους VAR και CW όταν υπάρχει ισχυρή πολυσυγγραμμικότητα. Η RCW, χωρίς χρήση κανονικοποίησης, αποδίδει καλά για ισχυρή πολυσυγγραμμικότητα αλλά όχι τόσο καλά όταν αυτή είναι ασήμαντη. Η VAR υστερεί σε μικρά μεγέθη δείγματος αλλά και πάλι έχουμε σύγκλιση των μεθόδων όσο μεγαλώνει το δείγμα. Πίνακας 4. Μέσο NRMSE για σύστημα 8 μεταβλητών με πολυσυγγραμμικότητα. NRMSE FULLols FULLpls FULLpcr VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 c=0 0,809 0,809 0,809 0,837 0,836 0,84 0,87 0,873 0,873 0,879 0,879 0,879 c=0.5 0,766 0,766 0,765 0,783 0,784 0,79 0,799 0,804 0,804 0,87 0,87 0,87 c= 0,744 0,745 0,744 0,75 0,756 0,758 0,756 0,766 0,76 0,78 0,78 0,78 c= 0,77 0,77 0,77 0,739 0,737 0,739 0,737 0,735 0,737 0,78 0,78 0,78 c=4 0,7 0,7 0,7 0,733 0,76 0,75 0,79 0,7 0,7 0,706 0,706 0,706 N=00 c=0 0,773 0,773 0,773 0,786 0,785 0,788 0,78 0,783 0,783 0,79 0,79 0,793 c=0.5 0,78 0,78 0,78 0,737 0,736 0,738 0,74 0,74 0,744 0,809 0,809 0,809 c= 0,704 0,704 0,704 0,709 0,708 0,7 0,77 0,78 0,7 0,76 0,759 0,76 c= 0,699 0,699 0,699 0,697 0,699 0,698 0,70 0,703 0,703 0,706 0,706 0,706 c=4 0,689 0,689 0,689 0,69 0,69 0,69 0,693 0,69 0,69 0,689 0,689 0,689 N=400 c=0 0,76 0,76 0,76 0,768 0,768 0,769 0,764 0,764 0,764 0,763 0,763 0,763 c=0.5 0,73 0,73 0,73 0,78 0,78 0,78 0,7 0,7 0,73 0,75 0,75 0,75 c= 0,683 0,683 0,683 0,688 0,687 0,689 0,693 0,693 0,695 0,78 0,78 0,78 c= 0,673 0,673 0,673 0,674 0,674 0,674 0,677 0,677 0,679 0,687 0,687 0,687 c=4 0,669 0,669 0,669 0,669 0,67 0,669 0,67 0,67 0,67 0,67 0,67 0,67 Πίνακας 5. Μέσο NRMSE για σύστημα 6 μεταβλητών με πολυσυγγραμμικότητα. NRMSE VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 c=0 0,88 0,8764 0,8898 0,87 0,8739 0,8763 0,9089 0,9 0,9 c=0.5 0,8364 0,84 0,8449 0,7976 0,806 0,803 0,84 0,847 0,846 c= 0,833 0,849 0,83 0,804 0,7638 0,7944 0,7549 0,7545 0,7546 c= 0,83 0,7857 0,86 0,806 0,786 0,773 0,79 0,793 0,794 c=4 0,897 0,7643 0,8043 0,7858 0,698 0,7496 0,6974 0,6977 0,6977 N=00 c=0 0,774 0,783 0,7337 0,748 0,7486 0,7509 0,7757 0,7766 0,7766 c=0.5 0,7007 0,7005 0,706 0,708 0,70 0,745 0,7674 0,7676 0,7677 c= 0,696 0,6989 0,699 0,757 0,709 0,788 0,79 0,79 0,793 c= 0,696 0,6908 0,694 0,76 0,6983 0,705 0,689 0,689 0,689 c=4 0,6964 0,6698 0,6863 0,70 0,675 0,69 0,67 0,673 0,673 N=400 c=0 0,666 0,666 0,6687 0,6646 0,6649 0,6655 0,663 0,663 0,6634 c=0.5 0,659 0,6586 0,664 0,6656 0,6648 0,669 0,6997 0,6999 0,7003 c= 0,663 0,6609 0,6637 0,6698 0,670 0,6734 0,6908 0,6907 0,6908 c= 0,6636 0,6654 0,6646 0,67 0,6735 0,679 0,669 0,669 0,669 c=4 0,6646 0,6603 0,663 0,6686 0,66 0,6658 0,6574 0,6574 0,6574 Πίνακας 6. Μέσο NRMSE για το δεύτερο σύστημα 6 μεταβλητών. NRMSE VARols VARpls VARpcr CWols CWpls CWpcr RCWols RCWpls RCWpcr N=00 c=0 0,906 0,904 0,904 0,865 0,8688 0,869 0,905 0,9065 0,907 c=0.5 0,957 0,949 0,956 0,8954 0,8965 0,8974 0,9 0,900 0,904 c= 0,9767 0,9509 0,9693 0,8744 0,867 0,8646 0,7995 0,7996 0,80 c= 0,9906 0,94 0,9708 0,975 0,77 0,933 0,7598 0,76 0,768 c=4 0,9949 0,934 0,9683 0,987 0,7439 0,977 0,7386 0,7386 0,7406 N=00 c=0 0,739 0,75 0,73 0,7464 0,7473 0,749 0,7746 0,7756 0,7757 c=0.5 0,89 0,8337 0,8368 0,786 0,7845 0,787 0,8069 0,8074 0,8086 c= 0,884 0,8899 0,8884 0,80 0,797 0,800 0,7708 0,7709 0,775 c= 0,9096 0,893 0,9034 0,86 0,765 0,807 0,7399 0,74 0,744 c=4 0,983 0,8808 0,903 0,80 0,7355 0,797 0,77 0,77 0,78 N=400 c=0 0,668 0,668 0,6654 0,665 0,663 0,6638 0,6605 0,6607 0,66 c=0.5 0,7835 0,788 0,786 0,698 0,6989 0,704 0,736 0,737 0,734 c= 0,8493 0,85 0,853 0,747 0,743 0,7404 0,7379 0,738 0,7387 c= 0,8798 0,8839 0,88 0,755 0,74 0,7456 0,785 0,785 0,786 c=4 0,889 0,883 0,8865 0,754 0,753 0,7409 0,783 0,783 0,784-7 -
3) Στο προηγούμενο σύστημα θεωρούμε AR() για την x t για να συμπεριλάβουμε συσχετίσεις με μεγαλύτερες υστερήσεις. Τα αποτελέσματα δίνονται στον Πίνακα 6. Εδώ η μέθοδος VAR υστερεί σημαντικά όταν υπάρχει πολυσυγγραμμικότητα ακόμα και για μεγαλύτερα δείγματα (Ν=00,400). Αντίθετα οι RCW και η CW με PLS συνεχίζουν να αποδίδουν ικανοποιητικά. 5. ΣΥΜΠΕΡΑΣΜΑΤΑ Σε απλά συστήματα με ανάδραση οι μέθοδοι FULL και VAR έχουν σχεδόν ίδια απόδοση με τη VAR να υπερτερεί σε περιπτώσεις μικρών χρονοσειρών, ενώ για μεγάλες χρονοσειρές οι CW και RCW συγκλίνουν στις FULL και VAR. Η εκτίμηση παραμέτρων με OLS, PCR και PLS δε διαφοροποιεί σημαντικά τα αποτελέσματα. Σε συστήματα με πολλές χρονοσειρές και ισχυρή πολυσυγγραμμικότητα η μέθοδος RCW χωρίς κανονικοποίηση και η CW με PLS έχουν τη μεγαλύτερη απόδοση, ενώ η CW αποδίδει ικανοποιητικά και σε ασθενή ή καθόλου πολυσυγγραμικότητα. Αντίθετα η VAR υστερεί σε απόδοση σε αυτήν την περίπτωση όταν η χρονοσειρά είναι μικρή, ιδιαίτερα όταν η πολυσυγγραμμικότητα αφορά χρονικές υστερήσεις. Το έργο αυτό (ΠΕΝΕΔ) συγχρηματοδοτείται κατά 90% κοινά από την Ε.Ε. Ε.Κ.Τ. (75%) και από το ΥΠ.ΑΝ. Γ.Γ.Ε.Τ. (5%) και 0% από το Rkshosptalet, Νορβηγίας στο πλαίσιο του Μέτρου 8.3 του Ε.Π. Ανταγωνιστικότητα Γ Κ.Π.Σ.. ABSTRACT Dynamc regresson models (also called autoregressve dstrbutve lag models) are used for multvarate tme seres predcton n econometrcs, meteorology and medcne. Nonetheless, to the best of our knowledge, there s no thorough analyss on the performance of such models under specal data condtons lke feedback and multcollnearty or wth respect to optmal parameter selecton. In ths paper we examne the most commonly used methods n dynamc regresson. Wth the use of regularzaton technques for parameter estmaton, lke prncpal components regresson and partal least square estmaton, we study usng Monte Carlo smulatons the optmzaton of the predctve effcency of the models. ΑΝΑΦΟΡΕΣ Granger W.J.C., Hyung N. and Jeon Y. (00). Spurous regressons wth statonary seres. Appled Economcs 33, pp. 899 904. Lngjærde O.C. and Chrstophersen N. (000). Shrnkage structure of partal least squares. Scandnavan Journal of Statstcs 7(3), 459-473. Pankratz A. (00). Forecastng wth dynamc regresson models. Wley-Interscence. Peña D. (006). Measurng the advantages of multvarate versus unvarate forecasts. Preprnt. Schwarz G. (978). Estmatng the dmenson of a model. Annals of Statstcs 6(), 46-464. Stock, J.H. and Watson M.W. (00). Forecastng usng prncpal components from a large number of predctors. Journal of the Amercan Statstcal Assocaton 97, 67 79. We W. (005). Tme Seres Analyss: Unvarate and multvarate methods. Second Edton. Addson Wesley Publcatons. - 8 -