Curs 5 Semnale stationare si nestationare. Testul unit root Seriile de timp stationare intuitiv inseamna medie si deviatie standard constante in timp. In aplicatii insa intalnim de obicei marimi nemarginite ca domeniu de variatie. Le numim serii de timp / semnale nestationare. Aceste semnale nu pot fi aproximate decat eventual cu ajutorul unui trend liniar. De aceea ele trebuie diferentiate de cate ori este nevoie pentru a obtine serii stationare, a caror variatie si predictibilitate caracterizeaza sursa de semnal. Referitor la predictibilitate, identificarea si caracterizarea comportamentului unei surse de semnal se reduce la determinarea unui spatiu de probabilitate si a naturii acestuia. Prezentam in acest curs notiunile de semnal stationar si nestationar alaturi de testul Dickey-Fuller de tip unit root pentru testarea naturii stationare sau nestationare a unui semnal.
1. Stationaritate si nestationaritate Aceste doua notiuni au in mintea multora o semnificatie vaga si de cele mai multe ori sunt folosite impropriu. In acest curs vom da definitii exacte asupra acestor concepte si vom prezenta testul unit root (Dickey-Fuller) de determinare a stationaritatii unui semnal. O sa incepem insa cu ceva care de obicei sperie studentii. Definitie: O σ-algebra peste o multime X este o colectie Σ de submultimi ale lui X care este inchisa sub operatiile de complementare si reuniune numarabila: 1) Σ φ 2) Daca A Σ atunci si X\A Σ. 3) Daca A 1, A 2, A 3, Σ este o secventa numarabila de submultimi din Σ, atunci A 1 A 2 A 3,... Σ Exemplu: X={a,b,c,d}. Atunci Σ = {φ, {a b], {c d}, {a b c,d} } este o σ-algebra. Multimea partilor unei multimi este tot o σ-algebra. Perechea (X, Σ) pentru care Σ este o σ-algebra a lui X se numeste spatiu masurabil, adica se poate defini o masura peste Σ care ataseaza un numar real pozitiv numit masura oricarei multimi din σ-algebra Σ. De ce σ-algebre? Probabilitatile de evolutie ale unei surse de semnal se definesc de obicei pe secvente de stari sau pe
multimi integrabile Lebesgue in spatiul starilor. Notiunea de σ- algebra sta la baza notiunii de camp de probabilitate care descrie universul de evolutie al sursei. Cel mai rau caz care se poate intampla atunci cand analizam sursa unui semnal, este ca ea sa aiba un comportament probabilistic, adica sa nu stim ce va emite la momentul urmator de timp decat dupa o anumita distributie de probabilitate. Aceasta distributie de probabilitate se poate defini nu doar peste starea curenta a sistemului. In cel mai rau caz sursa de semnal are si memorie de capacitate N, iar iesirea ei depinde de intrarile cat si de iesirile inregistrate anterior pana la maxim N-1 pasi in trecut. Distributia iesirii unei astfel de sursa de semnal este deci definita peste un spatiu X x R de dimensiune N+1 (X spatiul starilor N-dimensional, R domeniul de variatie al iesirii). Intr-un caz intermediar sursa de semnal nu are memorie (iesirea depinde doar de o intrare numar real) insa iesirea sa este data tot de o distributie de probabilitate, nefiind exacta pentru toate intrarile posibile. Presupunand ca iesirea sursei este numar real, atunci ea trebuie definita peste R x R (spatiul intrarilor x spatiul iesirilor) care este de dimensiune 2. In cazul cel mai fericit, sursa are o intrare reala si iesirea este exacta pentru fiecare intrare posibila. Atunci spunem ca sistemul este fara memorie si determinist. In acest caz distributia de probabilitate este crisp, adica probabilitatea ca iesirea sa aiba o valoare data la orice moment este 1, 0 altfel.
Pentru a cuprinde atat cazurile rau, intermediar si fericit, obiectul matematic care poate descrie iesirea sursei indiferent de natura ei se numeste spatiu de probabilitate. Spatiile de probabilitate sunt definite peste σ-algebra unei multimi. De ce? Pentru ca fiecare element trebuie sa aiba masura. Sa nu uitam ca probabilitatile sunt de obicei integrale ale unei densitati de probabilitate, iar integrala exista doar peste multimi cu masura, adica peste elemente ale unei σ-algebre. Sau, urmand exemplele anterioare : 1) Cazul rau avem nevoie de σ-algebra pentru ca in cazul rau iesirea depinde de secvente finite de stari. O secventa de stari apartine unei σ-algebre. In exemplul dat ea este o multime finita, numarabila si are dimensiune 0. Dar mai pot fi cazuri cand iesirea sursei este 1 pentru un mic cub din R N si 0 in rest, caz in care cubul apartine tot unei σ-algebre (numita σ-algebra multimilor integrabile Lesbegue) pentru ca are masura si putem integra densitatea de probabilitate si peste cub pentru a forma distributia de probabilitate peste R N x {0,1}. In celelalte cazuri iesirea depinde doar de o singura stare, care fiind multime cu un singur element apartine unei σ-algebre Notiunea de σ-algebra in existenta unui spatiu de probabilitate permite descrierea regulii de functionare a unei surse de semnal si este cuprinzatoare pentru orice dependenta
am avea la iesirea sursei fata de intrarile si/sau iesirile trecute. σ- algebra este cea care generalizeaza notiunea de dependenta a iesirii de ceva : de numere (o singura intrare reala), de vectori de intrare, de secvente de intrare N-dimensionale (sistemul cu memorie din primul exemplu) si in general peste orice multime Lebesgue integrabila. Spatiul de probabilitate ataseaza probabilitati iesirii unei surse de semnal in functie de orice element al unei σ-algebre: numar, secventa, cub, curba, in general orice multime integrabila Lebesgue. Asadar de acum incolo cand discutam de identificarea comportamentului unei surse de semnal si nu stim nimic despre aceasta, vom lucra la nivel intuitiv cu σ-algebra multimilor integrabile Lebesgue peste R n, unde n = numarul intrarilor sursei + 1 iesirea ei. Asadar, σ-algebra Impreuna cu spatiul de probabilitate acopera toate tipurile de comportament al unei surse de semnal. Revenind la situatiile intermediar si rau, in care iesirea unei surse de semnal urmeaza o distributie de probabilitate (care nu este crisp : 0 si 1 peste o multime), spunem ca procesul de generare a semnalului de catre sursa este un proces stohastic probabilistic, spre deosebire de cazul fericit in care spunem ca procesul de generare a semnalului este stohastic determinist. De retinut ca procesele stohastice includ: a) procesele de generare a semnalelor de la surse deterministe (predictibile)
b) generatoarele de zgomot (impredictibile) si c) procese naturale predictibile intr-o anumita masura Cu aceste notiuni fundamentale, in analiza si intelegerea oricarei surse de semnal introducem notiunile de serie de timp (semnal) stationara si nestationara. Definitie: O serie de timp se numeste stationara daca variatia sa ca proces stohastic nu este afectata de un increment constant in parametrul timp.. adica daca iesirea y[n] sau y(t) a sursei generatoare de semnal nu depinde de nici un parametru de tip αn sau respectiv αt, α R. In contrast, Definitie: O serie de timp se numeste nestationara daca proprietatile sale statistice depind de timp. Exemplu de serii nestationara: a) Temperaturile inregistrate la o statie meteo reprezinta o serie de masuratori compuse din: Temperatura reala Eroare de masurare cu deviatie standard si medie zero Media valorilor inregistrate in timp de catre statia meteo reprezinta o marime variabila in timp, in functie de cat variaza in realitate temperatura.
b) Pretul valutelor, si pretul in general sunt serii nestationare. In acest exemplu: verde pretul nestationar, galben: media flotanta, albastru: diferenta de pret de la o zi la alta - stationara (daily return) Figura 1: Pretul EUR/US $ - serie de timp nestationara, si seria variatiilor zilnice (daily returns) Returns[n]=Price[n]-Price[n-1] serie stationara NOTA: Evolutia seriilor de timp nestationare nu poate fi estimata dincolo de o regresie liniara decat pe portiuni si decat pe termen scurt, si doar daca distributia de probabilitate a sursei generatoare de semnal are o variatie lenta in timp. Prezentam in continuare testul unit root Dickey-Fuller pentru investigarea naturii stationare sau nestationare a unei serii de timp.
Testul unit root Dickey Fuller In spiritul observatiei anterioare, cele mai uzuale aproximari ale seriilor nestationare sunt modelele liniare auto-regresive (AR). Un model auto-regresiv de ordin p, notat AR(p) este: unde ϕ1, ϕ2,ϕ3, ϕp sunt parametrii modelului si ε este zgomot alb (spectrul de frecvente uniform, DTFT = constanta) Consideram asadar un model AR(1) simplu pentru sursa generatoare de semnal: (1) y[n] = a y[n-1]+ ε n (2) unde a este o constanta si ε un proces stohastic de medie 0. Introducem operatorul diferenta inapoi : y[n] = y[n]-y[n-1]. Avem: y[n]= (a-1)y[n-1] + ε n (3), sau y[n] = δ y[n-1] +ε n (4) Dickey-Fuller test 1: Daca δ<0 atunci spunem ca seria de timp nu are unit root si este stationara. Altfel seria este nestationara. Mai exact: - Daca δ = 0 atunci spunem ca se satisface ipoteza null si : y[n] = y[n-1]+ ε n si seria se numeste random walk nestationara
- Daca δ>0 atunci seria de timp este doar nestationara. Dickey-Fuller test 2 - Unit root cu drift: Presupunem ca avem un drift constant in variatia lui y[n] (adaugam a 0 in ecuatia (3)): y[n] = a 0 + δ y[n-1] +ε n (5) Testul 2 testeaza existenta unui unit root cu drift. - Daca δ=0 spunem ca seria de timp este random walk cu drift a 0. - Daca δ<0 seria este stationara cu drift - Daca δ>0 seria este nestationara cu drift Dickey Fuller test 3: Testul 3 verifica ipoteza ca sursa sa emita un semnal cu o componenta de tip trend determinist. Astfel ipoteza este : y[n] = a y[n-1] + b n + a 0 + ε n (6) Componenta b*n este componenta de trend pentru semnale discrete, sau bt componenta trend pentru semnale continue. Aplicand operatorul diferenta inapoi avem: y[n] = a 0 + δ y[n-1] +b*n + ε n Dupa estimarea parametrilor, daca b 0: - Daca δ<0 atunci seria de timp se numeste trend-stationara, si pentru a obtine o serie de timp stationara trebuie scazut termenul b*n, operatie numita detrending.
- Daca δ=0 atunci seria de timp se numeste random walk cu trend, este nestationara si are unit root. Printr-un eventual detrending nu obtinem decat un random walk, deci operatia nu intereseaza decat in cazul δ<0. - Daca δ>0 atunci seria de timp se numeste nestationara cu trend.
De ce este util testul Dickey-Fuller?
Analiza Fourier pe semnale nestationare nu este utila Proprietati interesante ale semnalelor se determina pe semnale stationare. Aplicam de cate ori este nevoie cf. testului DF si eliminam driftul sau trendul pana cand semnalul devine stationar fara trend si fara drift.
Anexa 1) Un camp de probabilitate este un triplet (X, Σ,P), unde X e o multime, Σ este o σ-algebra peste X si P este o functie care asociaza oricarei multimi A din Σ un numar real pozitiv mai mare sau egal cu 0 numit probabilitate. Cea mai simpla si intuitiva justificare a faptului ca un camp de probabilitate este definit peste o σ-algebra se regaseste in urmatoarele argumente: a) Daca A Σ atunci X\A Σ (cerinta ca σ-algebra sa fie inchisa sub operatia de complementare), pentru ca mereu sa aiba loc relatia P(A) + P(X\A) = 1 b) Daca A 1, A 2, A 3, Σ sunt multimi disjuncte, atunci: P(A 1 A 2 A 3,...) = P(A 1 ) + P(A 2 )+.. 2) Cum se construieste X? Daca STATE e domeniul semnalelor care definesc starea sursei la un moment de timp si OUTPUT este domeniul de variatie a iesirii sursei de semnal, atunci X = STATE x OUTPUT