Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 8 ου Πανελληνίου Συνεδρίου Στατιστικής (5) σελ65-7 ΤΑΞΙΝΟΜΗΣΗ ΧΡΟΝΙΚΩΝ ΣΕΙΡΩΝ ΣΕ ΜΟΡΦΗ ΧΩΡΟΥ ΚΑΤΑΣΤΑΣΕΩΝ Καλαντζής Θωμάς Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας kala@uomgr Παπαναστασίου Δημήτριος Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας papaas@uomgr ΠΕΡΙΛΗΨΗ Στην εργασία αυτή μελετούμε την ταξινόμηση χρονικών σειρών στο πεδίο του χρόνου με το παραμετρικό μοντέλο χώρου καταστάσεων Εξετάζουμε μία συνάρτηση ταξινόμησης που βασίζεται στο λόγο γκαουσιανών συναρτήσεων πιθανοφάνειας Δίνουμε μία προσεγγιστική έκφραση για την κατανομή της Με τον τρόπο αυτό προκύπτουν ως υποπεριπτώσεις οι συναρτήσεις ταξινόμησης για σειρές ARMA οποιασδήποτε τάξεως Δίνουμε αριθμητικά αποτελέσματα όπου φαίνεται ότι η μέθοδος μας είναι το ίδιο αποτελεσματική με γνωστές εκφράσεις για την ειδική περίπτωση ενός ΑR() Η υπεροχή της πρότασής μας έγκειται στην υπολογιστική γενικότητά της ΕΙΣΑΓΩΓΗ Στην Aνάλυση Tαξινόμησης (ΑΤ) έχουμε δύο τουλάχιστον γνωστές ομάδες ταξινόμησης-πληθυσμούς έστω Π j= σε μία από τις οποίες καλούμαστε να ταξινομήσουμε μία νέα -μεταβλητή παρατήρηση ( ) j y = y y y ' Η ταξινόμηση γίνεται με την βοήθεια μιας Συνάρτησης Ταξινόμησης (ΣΤ) που προκύπτει από διάφορα κριτήρια όπως ο λόγος πιθανοσυναρτήσεων η πληροφορία των Κullback-Leibler κά Αν θεωρήσουμε ότι το διάνυσμα y είναι κανονικά κατανεμημένο η διαφορετικότητα μεταξύ των ομάδων μπορεί να βρίσκεται στον μέσο του διανύσματος στον πίνακα συνδιακυμάνσεων του ή στα δύο Η μεθοδολογία της ΑΤ επεκτείνεται στις χρονικές σειρές λόγω των πρακτικών εφαρμογών που παρουσιάζει σε διάφορα πεδία όπως στην ιατρική μηχανική σεισμολογία οικονομική επιστήμη [βλπ παραδείγματος χάριν Shumway & Soffer () Taiguchi & Kakizawa ()] Μια πραγματοποίηση μήκους από μία χρονική σειρά εκλαμβάνεται ως μία -μεταβλητή παρατήρηση y που πρέπει να καταταγεί σε μία από τις δύο γνωστές ομάδες Για - 65 -
χρονικές σειρές μας ενδιαφέρει κυρίως η διαφορά να έγκειται στον πίνακα συνδιακυμάνσεων δηλαδή την συνάρτηση αυτοσυνδιακυμάνσεων της σειράς Η σχετική βιβλιογραφία που σε μεγάλο βαθμό συνοψίζεται από τους Taiguchi & Kakizawa () διακρίνει δύο περιπτώσεις Έχουμε την μη-παραμετρική περίπτωση όπου η σειρά προέρχεται από ένα γενικό γραμμικό μοντέλο την παραμετρική περίπτωση όπου η σειρά μας προέρχεται από ένα μοντέλο που εκφράζεται συναρτήσει ενός πεπερασμένου διανύσματος παραμέτρων θ Το μοντέλο χώρου καταστάσεων που θα ασχοληθούμε στην συνέχεια ανήκει στην δεύτερη περίπτωση Επίσης στην μελέτη της ΣΤ ακολουθούνται οι δύο καθιερωμένες προσεγγίσεις στην ανάλυση χρονικών σειρών η ανάλυση στο πεδίο των συχνοτήτων η ανάλυση στο πεδίο του χρόνου Εμείς διατυπώνουμε τα αποτελέσματά μας ακολουθώντας την δεύτερη Το πρόβλημα που αντιμετωπίζουμε στην ΑΤ για χρονικές σειρές είναι κυρίως αυτό του προσδιορισμού της κατανομής της ΣΤ προκειμένου να υπολογιστούν οι θεωρητικές πιθανότητες σφάλματος Επίσης εκεί όπου απαιτείται η ταξινόμηση πραγματοποιήσεων μεγάλου μήκους οι υπολογιστικές δυσκολίες μας αποτρέπουν από τον ακριβή υπολογισμό της ΣΤ δεδομένου ότι χρειάζεται η αντιστροφή μεγάλων πινάκων συνδιακύμανσης Η ανάλυση στο πεδίο των συχνοτήτων ξεπερνά τα προβλήματα αυτά δίνοντας προσεγγιστικές λύσεις Οι δυσκολίες που αντιμετωπίζουμε φαίνονται στην προσπάθεια των Cha κά (996) να υπολογίσουν να μελετήσουν μια ΣΤ που βασίζεται στον λόγο γκαουσιανών πιθανοφανειών για στάσιμα μοντέλα ARMA Παρ όλο το υπολογιστικό κόστος την περιπλοκότητα των εκφράσεων ακόμη σε απλές περιπτώσεις όπως ενός AR() τα αποτελέσματά τους μπορεί να είναι προσεγγιστικά Στη εργασία αυτή όπως ήδη αναφέραμε εξετάζουμε την ΑΤ χρονικών σειρών που παριστάνονται στην παραμετρική μορφή του μοντέλου χώρου καταστάσεων Μια ΣΤ που βασίζεται στον λόγο γκαουσιανών πιθανοφανειών γράφεται με την βοήθεια των σφαλμάτων πρόβλεψης των εξισώσεων του φίλτρου του Kalma Οι ίδιες εξισώσεις μας βοηθούν να βρούμε την κατανομή της ΣΤ τις αντίστοιχες πιθανότητες σφάλματος Το μοντέλο χώρου καταστάσεων είναι αρκετά γενικό ώστε να περιλαμβάνει μια σειρά από καθιερωμένα μοντέλα χρονικών σειρών ως υποπεριπτώσεις μεταξύ των οποίων τα ARMA που προαναφέραμε Από την άποψη αυτή τα αποτελέσματά μας υπερέχουν από αυτά των Cha κά (996) για ARMA μοντέλα που έχουν AR μέρος Στην συνέχεια στην Ενότητα παρουσιάζουμε το μοντέλο χώρου καταστάσεων την προτεινόμενη ΣΤ δίνουμε εκφράσεις για τον υπολογισμό την κατανομή της Στην Ενότητα 3 συγκρίνουμε την ΣΤ ενός AR() σε μορφή χώρου καταστάσεων με τις αντίστοιχες εκφράσεις των Cha κά (996) Τέλος δίνουμε μερικά αριθμητικά αποτελέσματα από μια μικρή μελέτη προσομοίωσης Η ΣΥΝΑΡΤΗΣΗ ΤΑΞΙΝΟΜΗΣΗΣ ΓΙΑ ΤΟ ΜΟΝΤΕΛΟ ΧΩΡΟΥ ΚΑΤΑΣΤΑΣΕΩΝ Στο μοντέλο χώρου καταστάσεων η αριθμητική παρατήρηση σχέσεις y δίνεται από τις - 66 -
y = Z α +ζ ζ N( H) () T R η N Q () α = α + η ( ) = όπου α είναι το μη-παρατηρήσιμο διάνυσμα κατάστασης ζ η είναι σφάλματα ανεξάρτητα κατανεμημένα ως προς τον χρόνο μεταξύ τους Οι μη-στοχαστικοί πίνακες Z T R H Q χαρακτηρίζονται από ένα - διάστατο διάνυσμα παραμέτρων θ Η γκαουσιανή πιθανοσυνάρτηση L( y ) για το μοντέλο ()-() γράφεται με την βοήθεια των σφαλμάτων πρόβλεψης e των διακυμάνσεών τους F Αυτά υπολογίζονται αναδρομικά από τις εξισώσεις του φίλτρου του Kalma [βλπ Shumway & Soffer ()] Οι εξισώσεις δίνονται στο Παράρτημα Ι Στην συνέχεια όταν η σειρά προέρχεται από την ομάδα Π: θ=θ δίπλα στα σφάλματα στους υπόλοιπους παράγοντας στο ()-() γράφουμε τον δείκτη πχ γράφουμε e α Z κλπ Ανάλογα γράφουμε ένα δείκτη όταν η σειρά προέρχεται από την ομάδα Π: θ=θ Τηρώντας τους προηγούμενους συμβολισμούς η συνάρτηση ταξινόμησης Q(y) = θα είναι που βασίζεται στον λόγο των πιθανοφανειών (y) l ( L (y) L (y)) F e e Q(y) = l + = F = F F Q (3) Η ταξινόμηση γίνεται στον πληθυσμό Π αν Η (3) όπως τα Q(y) > διαφορετικά στον Π λ ij παρακάτω υπολογίζονται τρέχοντας δύο φορές το φίλτρο του Kalma μία φορά με θ =θ μία με θ =θ Θέλουμε να προσδιορίσουμε την κατανομή της μοναδιαίο πίνακα ( ) Q(y) κάτω από την υπόθεση ότι I τον τα δεδομένα μας προέρχονται από την ομάδα Π Συμβολίζουμε με e e e e ' F = iag{f F F } Έστω B= B Β συμμετρικός = F i λ ij j< i bij = Fi F i j= i i j > = πίνακας B { bij} = όπου - 67 -
i i i ij Zi Tk K j Z i Tk Kj j k=+ j = j i=+ λ = λ / / Γράφουμε C= F BF Η ασυμπτωτική κατανομή της (3) δίνεται στην επόμενη πρόταση Πρόταση : Κάτω από την υπόθεση ότι η παρατηρηθείσα σειρά y προέρχεται από την ομάδα Π: θ=θ για μεγάλο η ΣΤ στην (3) κατανέμεται ως (y) N μ σ όπου F race(c) μ = l + Q = F ( ) Q Q Q σ = race ( C C) ( ) Q I + Wij W ij + vec(i )vec(i ) race C i= j= W ο πίνακας με μόνο μη μηδενικό στοιχείο την μονάδα στη θέση ij ij i j = Απόδειξη: Η απόδειξη στηρίζεται στην παρατήρηση ότι αν η Π αληθής τότε τα e είναι ανεξάρτητα όχι όμως τα e όπως τα e e μεταξύ τους Γράφουμε τα e στην (3) συναρτήσει των e προσεγγίζουμε την κατανομή της τετραγωνικής μορφής που προκύπτει με την αντίστοιχη κανονική Παρατήρηση: Αντίστοιχες προσεγγίσεις προτείνονται στην περιοχή των συχνοτήτων από τους Taiguchi & Kakizawa () 3 ΜΕΛΕΤΗ ΠΡΟΣΟΜΟΙΩΣΗΣ Στην ενότητα αυτή παρουσιάζουμε τα αποτελέσματα μιας μελέτης προσομοίωσης για ταξινόμηση πραγματοποιήσεων που προέρχονται από ένα AR() Σκοπός της μελέτης είναι να δείξει ότι εφαρμόζοντας την ΣΤ στην σχέση (3) οι συχνότητα λανθασμένης ταξινόμησης δεν διαφέρει απ αυτήν της ΣΤ των Cha κά (996) της κλασικής προσέγγισης που περιγράφουμε στην συνέχεια Δεν εξετάζουμε την ακρίβεια της ασυμπτωτικής κατανομής στην Πρόταση Μια σειρά παρατηρήσεων y = προέρχεται από ένα Γκαουσιανό στάσιμο AR() όταν δημιουργείται από την σχέση y = y +ε < ε iin( σ ) Το προηγούμενο γράφεται στη μορφή χώρου καταστάσεων θέτοντας στις σχέσεις ()-() Z = T = R = η =ε H = Q = σ Στην μελέτη y = y y ' προέρχεται κάθε φορά από τον προσομοίωσης η πραγματοποίηση ( ) - 68 -
πληθυσμό Π: = που χαρακτηρίζεται από την παράμετρο αυτοπαλινδρόμησης Αντίστοιχα έχουμε την λάθος εναλλακτική Π: = Η διακύμανση σ = παραμένει η ίδια Η ΣΤ που προκύπτει για το AR() από την εφαρμογή της (3) είναι η Q(y) = l + ( ) y (e e ) + (4) σ = Την (4) θα την συγκρίνουμε με την κλασική ΣΤ [βλπ παραδείγματος χάριν Johso & Wicher (99)] Σ Q( x) = l + y' ( Σ Σ ) y (5) Σ όπου Σ Σ είναι οι πίνακες συνδιακυμάνσεων του AR() διανύσματος y κάτω από τις Π Π αντίστοιχα Στην περίπτωση αυτή είναι εύκολο να γράψουμε τον i j Σ= σ ij ( ) πίνακα { ij } { } σ = σ i j = Η τρίτη ΣΤ προέρχεται από τους Cha κά (996) Από την προηγούμενη εργασία για το AR() έχουμε Σ Q(x) = l + ( ) Λivi (6) Σ i= Στην προηγούμενη Λ i = + cos( iπ ( + ) ) είναι η i ιδιοτιμή του πίνακα B με + r = s Brs = r s = διαφορετικά v = Ly όπου L είναι ο πίνακας των ιδιοδιανυσμάτων του B Επισημαίνουμε πως με τον πίνακα Β οι συγγραφείς προσεγγίζουν την διαφορά Σ Σ Κάθε προσομοιωμένη σειρά έχει μήκος = Για κάθε ζεύγος Π: = έναντι Π: = δημιουργούνται σειρές-επαναλήψεις οι οποίες στη συνέχεια ταξινομούνται Οι επόμενοι πίνακες δίνουν την συχνότητα λανθασμένης ταξινόμησης Τα αποτελέσματα δεν συνιστούν την υπεροχή κάποιας από τις ΣΤ για το AR() υπόδειγμα Αντίστοιχα αποτελέσματα έχουμε πάρει για ΜΑ() Στα τελευταία η ΣΤ των Cha κά (996) δεν χρειάζεται προσεγγίσεις για την εφαρμογή της - 69 -
Πίνακας Αποτελέσματα ταξινόμησης με βάση την σχέση (4) Π: = Π: = 4 5 8 9 4 9 6 3 7 6 8 4 3 6 5 3 8 8 9 9 Πίνακας Αποτελέσματα ταξινόμησης με βάση την σχέση (5) Π : = Π: = 4 5 8 9 4 9 6 3 7 6 8 4 3 6 5 3 8 8 9 9 Πίνακας 3 Αποτελέσματα ταξινόμησης με βάση την σχέση (6) Π: = Π: = 4 5 8 9 4 9 6 4 7 4 8 4 3 5 4 5 8 4 9 7-7 -
4 ΣΥΜΠΕΡΑΣΜΑΤΑ Στην εργασία αυτή προτείναμε μια συνάρτηση ταξινόμησης βασισμένη στο λόγο κανονικών πιθανοφανειών για μοντέλα χρονικών σειρών που γράφονται στην μορφή του χώρου καταστάσεων Η συνάρτηση υπολογίζεται εύκολα από τα σφάλματα πρόβλεψης τις αντίστοιχες διακυμάνσεις που δίνουν οι επαναλήψεις του φίλτρου του Kalma Παραθέσαμε παράδειγμα εφαρμογής της συνάρτησης ταξινόμησης για το μοντέλο ΑR() η σύγκριση με γνωστές μεθόδους έδειξε ότι δίνει το ίδιο αξιόπιστα αποτελέσματα Ο υπολογισμός της (3) μπορεί να γίνει με έτοιμο εμπορικό λογισμικό όπως η συνάρτηση KalmaFil του συμπληρώματος S+Fimerics του πακέτου S-Plus (5) ΠΑΡΑΡΤΗΜΑ Ι Οι εξισώσεις του φίλτρου του Kalma για = είναι οι e = y Za ' F = ZPZ + H ' K = TPZ F a = Ta + + Ke L = T KZ ' ' P = TPL + + RQR αρχίζουν με κατάλληλες τιμές a P ABSTRACT I his paper we examie he classificaio of a ime series geerae by a sae space moel We iscuss a classificaio fucio origiaig from a Gaussia loglikelihoo raio a we propose a approximae expressio for is isribuio Followig our proceure we ca classify series comig from a ARMA process of ay orer We give some umerical eviece ha our proceure is equally efficie wih oher kow expressios for he paricular AR() case The poeial of our proposal sems from is compuaioal geeraliy ΑΝΑΦΟΡΕΣ Cha HT R Chiiparaz a TF Cox (996) Discrimiaio of AR MA a ARMA Time Series Moels J Commu Sais-Theory Meh 5(6) 47-6 Johso RA a DW Wicher (99) Applie Mulivariae Saisical Aalysis 3r e Preice-Hall Eglewoo Cliffs NJ Shumway RH a DS Soffer () Time Series Aalysis a Is Applicaios Spriger-Verlag New York Taiguchi M a Y Kakizawa () Asympoic Theory of Saisical Iferece for Time Series Spriger-Verlag New York S+FiMerics Referece Maual 5 Isighful Corporaio Seale WA - 7 -