Hľadanie, skúmanie a hodnotenie súvislosti medzi znakmi

Hľadanie, skúmanie a hodnotenie súvislosti medzi znakmi Typy súvislostí javov a vecí: nepodstatné - vonkajšia súvislosť nevyplýva z vnútornej potreby (javy spoločne vznikajú, majú zhodný priebeh, alebo nasledujú za sebou) podstatné - vonkajšia súvislosť vyplýva z vnútornej potreby. príčinná - kauzálna závislosť (daný jav (účinok, dôsledok) je za určitých podmienok vyvolaný iným javom alebo javmi(príčina)) vzájomná závislosť - jav je dôsledkom iného javu a zároveň môže byť aj jeho príčinou. (vek neviest podmieňuje vek ženíchov a naopak) 23 RNDr. Mária Bohdalová, PhD. Štatistické metódy Typy závislostí: pevné (ku vzťahu medzi príčinou a účinkom dochádza za podmienok, ktoré sú pomerne konštantné) obyčajne sa vyskytujú v prírode opakujú sa vždy rovnako charakterizuje ich jedno pozorovanie 24 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Typy závislostí: voľné (ku vzťahu medzi príčinou a účinkom dochádza za podmienok, ktoré sa menia) obyčajne sú spojené komplexy príčin a účinkov obyčajne sa vyskytujú v spoločenských javoch je ich možné skúmať len na základe mnohých pozorovaní - je nutné skúmať hromadné javy dôležitý je výber vhodných štatistických znakov, ktoré javy charakterizujú (nevhodným výberom dochádza ku skresleniu) dostatočný rozsah skúmaného štatistického súboru (pri malých súboroch sa môže skôr prejaviť pôsobenie rôznych vedľajších a náhodných činiteľov) 25 RNDr. Mária Bohdalová, PhD. Štatistické metódy Úloha štatistiky pri skúmaní závislostí objaviť a poznať príčinnú závislosť kvantitatívne charakterizovať závislosť javov ak bola vysvetlená ich podstata štatistika skúma súvislosti medzi kvantitatívnymi a kvalitatívnymi štatistickými znakmi javy, pre ktoré budeme skúmať a analyzovať závislosti musia byť definované nad jedným pravdepodobnostným priestorom 26 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Pravdepodobnostný priestor Trojicu (Ω, S, P) nazývame pravdepodobnostným priestorom. Ω je priestor elementárnych udalostí ω (množina všetkých možných výsledkov náhodného pokusu), S jeσ-algebra podmnožín priestoru elementárnych udalostí a (prvky z S nazývame náhodné udalosti, javy). Prvkom z S priraďujeme určitú pravdepodobnosť pomocou pravdepodobnostnej miery P. a Nech S je neprázdny systém podmnožín množiny Ω. S sa nazývaσ algebra, ak je uzavretá na doplnky a spočítateľné zjednotenia, t.j. A S A C S, A n S n=1 An S 27 RNDr. Mária Bohdalová, PhD. Štatistické metódy Axiomatická definícia pravdepodobnosti Pravdepodobnosť je zobrazenie P : S R definované na σ-algebre S podmnožín Ω pričom platí: 1. Ω S 2. A S A C = Ω A S 3. A n S, n = 1, 2,..., n=1 S 4. A S : P(A) 0 5. P(Ω) = 1 6. A n S, n = 1, 2,...,aA i A j = 0, i j P ( n=1 ) = n=1 P(A n ) 28 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Náhodný vektor Nech je daný pravdepodobnostný priestor (Ω, S, P). Náhodným vektorom (n-rozmernou náhodnou premennou) X = (X 1, X 2,...,X n ) T nazývame zobrazenie n X : Ω R n ; x = (x 1, x 2,...,x n ) T R n : {ω; X i (ω)<x i } S. i=1 Každá zložka X i, i = 1, 2,...,n náhodného vektora X je náhodná premenná. 29 RNDr. Mária Bohdalová, PhD. Štatistické metódy Popis rozdelenia náhodného vektora X = (X 1, X 2,...,X n ) T Pravidlo, ktoré každej hodnote (každému intervalu) hodnôt priraďuje pravdepodobnosť, že náhodné premenné X 1, X 2,...,X n nadobudnú tieto hodnoty (hodnoty z tohto intervalu), nazývame zákonom rozdelenia náhodného vektora. K popisu rozdelenia náhodného vektora používame rôzne formy a rozlišujeme či sa jedná o nespojitú (diskrétnu) alebo spojitú náhodnú premennú. 30 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Popis rozdelenia náhodného vektora X = (X 1, X 2,...,X n ) T Náhodný vektor môžeme popísať pomocou združenej pravdepodobnostnej funkcie združenej distribučnej funkcie marginálnych pravdepodobnostných funkcií podmienených pravdepodobnostných funkcií 31 RNDr. Mária Bohdalová, PhD. Štatistické metódy Združená pravdepodobnostná funkcia Združenou pravdepodobnostnou funkciou diskrétneho náhodného vektora X = (X 1, X 2,...,X n ) T nazývame reálnu funkciu P : R n R, definovanú rovnosťou alebo P (x 1, x 2,...,x n ) = P (X 1 = x 1 X 2 = x 2... X n = x n ), ( n ) P (x 1, x 2,...,x n ) = P {ω; X i (ω) = x i }, i=1 kde (x 1, x 2,...,x n ) T R n 32 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Združená distribučná funkcia Združenou distribučnou funkciou náhodného vektora X = (X 1, X 2,...,X n ) T nazývame reálnu funkciu F : R n R, definovanú rovnosťou ( n ) F (x 1, x 2,...,x n ) = P {ω; X i (ω)<x i }, i=1 kde (x 1, x 2,...,x n ) T R n 33 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti združenej distribučnej funkcie Nech F (x 1, x 2,...,x n ) je distribučná funkcia náhodného vektora X = (X 1, X 2,...,X n ) T. Potom platí 1. i = 1, 2,...,n : lim xi F (x 1, x 2,...,x n ) = 0 2. lim x1,x 2,...,x n F (x 1, x 2,...,x n ) = 1 3. F (x 1, x 2,...,x n ) je neklesajúca funkcia každej svojej premennej 4. F (x 1, x 2,...,x n ) je zľava spojitá funkcia každej svojej premennej 34 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Vlastnosti združenej distribučnej funkcie, pokračovanie 5 Pre ľubovoľné reálne x i a ľubovoľné h i 0 (i = 1, 2,...,n) platí (1) h 1 (2) h 2... (n) h n F (x 1, x 2,...,x n ) 0,, kde (i) h i F (x 1, x 2,...,x n ) = F (x 1,...,x i 1, x i + h, x i+1,...,x n ) F (x 1, x 2,...,x n ) Každá funkcia s týmito vlastnosťami je distribučnou funkciou nejakého náhodného vektora. 35 RNDr. Mária Bohdalová, PhD. Štatistické metódy Korelačná tabuľka Združené pravdepodobnosti 2 náhodných premenných môžeme usporiadať do tzv. korelačnej tabuľky. Ak náhodná premenná X 1 má r rôznych hodnôt a náhodná premenná X 2 má s rôznych hodnôt, tak tabuľka obsahuje r s združených pravdepodobností možných kombinácií hodnôt X 1 a X 2. 36 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Marginálne pravdepodobnostné funkcie Marginálna pravdepodobnostná funkcia udáva pravdepodobnosť, že náhodná premenná X 1 nadobúda hodnotu x 1 bez ohľadu na hodnotu náhodnej premennej X 2 (riadkové súčty pravdepodobností v korelačnej tabuľke), Marginálna pravdepodobnostná funkcia udáva pravdepodobnosť, že náhodná premenná X 2 nadobúda hodnotu x 2 bez ohľadu na hodnotu náhodnej premennej X 1 (stĺpcové súčty pravdepodobností v korelačnej tabuľke). Pre n rozmerný náhodný vektor budeme uvažovať marginálne rozdelenie ľubovoľných skupín (m(m < n) premenných bez ohľadu na hodnoty zvyšných n m premenných). 37 RNDr. Mária Bohdalová, PhD. Štatistické metódy Podmienená pravdepodobnostná funkcia Podmieneným rozdelením náhodnej premennej X 1 vzhľadom na x 2 rozumieme rozdelenie náhodnej premennej X 1 za podmienky, že náhodná premenná X 2 nadobudla hodnotu x 2. P(X 1 /x 2 ) = P(x 1, x 2 ) P 2 (x 2 ), P 2(x 2 ) 0 Podmieneným rozdelením náhodnej premennej X 2 vzhľadom na x 1 rozumieme rozdelenie náhodnej premennej X 2 za podmienky, že náhodná premenná X 1 nadobudla hodnotu x 1. P(X 2 /x 1 ) = P(x 1, x 2 ) P 1 (x 1 ), P 1(x 1 ) 0 38 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Nezávislosť náhodných premenných Pre viacrozmerný vektor (n > 2) rozlišujeme nezávislosť podvojnú (párovú) Náhodné premenné X 1, X 2,...,X n sú podvojne nezávislé, ak sú nezávislé každé dve z týchto náhodných premenných. vzájomnú Náhodné premenné X 1, X 2,...,X n sú vzájomne nezávislé, ak rozdelenie každej náhodnej premennej nezávisí od hodnôt ostatných náhodných premenných. Ak sú náhodné premenné X 1 a X 2 nezávislé, tak sú úmerné riadky a stĺpce P(x, y) korelačnej tabuľky. 39 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vzájomná nezávislosť náhodných premenných Nech náhodný vektor X = (X 1, X 2,...,X n ) T má združenú pravdepodobnostnú funkciu P(x 1, x 2,...,x n ). Nech P i (x i ) je marginálna pravdepodobnostná funkcia premennej X i, i = 1, 2,...,n. Potom X 1, X 2,...,X n sú vzájomne nezávislé práve vtedy, ak platí P(x 1, x 2,...,x n ) = P 1 (x 1 ) P 2 (x 2 )... P n (x n ) (7) pre x = (x 1, x 2,...,x n ) T R n Obdobná definícia platí ak vychádzame zo združenej distribučnej funkcie F(x 1, x 2,...,x n ). 40 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Stredná hodnota náhodného vektora O vektore X = (X 1, X 2,...,X n ) T hovoríme, že má prvé momenty, ak existujú stredné hodnoty jeho zložiek E(X 1 ), E(X 2 ),...,E(X n ) a výraz E(X) = (E(X 1 ), E(X 2 ),...,E(X n )) T nazývame jeho strednou hodnotou. 41 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti strednej hodnoty: 1. E(c) = c 2. E(c X) = c E(X) 3. E(X 1 + X 2 +... + X n ) = E(X 1 ) + E(X 2 ) +... + E(X n ) 4. E(a 1 X 1 + a 2 X 2 +... + a n X n ) = a 1 E(X 1 ) + a 2 E(X 2 ) +... + a n E(X n ) 5. Ak sú náhodné premenné X 1, X 2,...,X n nezávislé, tak stredná hodnota ich súčinu sa rovná súčinu ich stredných hodnôt E(X 1 X 2... X n ) = E(X 1 ) E(X 2 )... E(X n ) 42 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Kovariancia Nech X = (X 1, X 2,...,X n ) T má konečné druhé momenty E(Xi 2 )<, i = 1, 2,...,n. Potom kovarianciou premenných X i, X j pre 1 i, j n budeme nazývať výraz cov(x i, X j ) = E[(X i E(X i ))(X j E(X j ))], resp. cov(x i, X j ) = E(X i X j ) E(X i ) E(X j ) 43 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti kovariancie Kovariancia premenných X i, X j pre 1 i, j n má nasledujúce vlastnosti (Kovariancia je skalárny súčin vektorov u.v = u 1 v 1 + u 2 v 2 ): 1. cov(x i, X j ) = cov(x j, X i ), 2. (cov(x i, X j )) 2 D(X i )D(X j ), 3. Ak cov(x i, X j ) = 0 tak hovoríme, že X i a X j sú nekorelované náhodné premenné, 4. cov(x i, X i ) = D(X i ) 5. a R : cov(x, a) = cov(a, X) = 0 6. a, b R : cov(ax 1 + b, X 2 ) = a cov(x 1, X 2 ) 7. cov(x + Y,Z) = cov(x, Z) + cov(y,z) 44 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Vlastnosti disperzie (rozptylu): 1. D(c) = 0 2. D(c X) = c 2 D(X) 3. Pre n aspoň podvojne nezávislých náhodných premenných platí: D(X 1 + X 2 +... + X n ) = D(X 1 ) + D(X 2 ) +... + D(X n ) 4. Pre dve korelované náhodné premenné platí: D(X+Y ) = cov(x+y,x+y ) = cov(x, X+Y )+cov(y,x+ Y ) = cov(x, X) + cov(x, Y ) + cov(y,x) + cov(y,y) = cov(x, X) + 2cov(X, Y ) + cov(y,y), resp. D(X + Y ) = D(X) + D(Y ) + 2 cov(x, Y ) 5. Disperzia súčtu skalárnych násobkov korelovaných náhodných premenných X a Y sa rovná 1 : D(aX + by ) = a 2 D(X) + b 2 D(Y ) + 2 a b cov(x, Y ) 1 disperzia je definovaná ako kvadratická funkcia (x + y) 2 = x 2 + y 2 + 2xy 45 RNDr. Mária Bohdalová, PhD. Štatistické metódy Kovariančná matica Σ Nech X = (X 1, X 2,...,X n ) T je náhodný vektor. Nech pre disperzie náhodných premenných X k, k = 1, 2,...,n platí E(X k )<. Kovariančnou maticou náhodného vektora X nazývame symetrickú n n rozmernú maticu Σ, ktorej (i, j) ty prvok je číslo cov (X i, X j ),i, j = 1, 2,...,n: cov(x 1, X 1 ) cov(x 1, X 2 ) cov(x 1, X n ) cov(x 2, X 1 ) cov(x 2, X 2 ) cov(x 2, X n ) Σ =........ cov(x n, X 1 ) cov(x n, X 2 ) cov(x n, X n ) 46 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Vlastnosti kovariančnej matice Σ 1. je symetrická a kladne definitná 2. platí pre ňu Schwarzova nerovnosť: i, j = 1, 2,...,n : (cov(x i, X j )) 2 D(X i )D(X j ) 3. kovariančnú maticu Σ možno vyjadriť v tvare: Σ = E(X E(X))(X E(X)) T resp. Σ = E(X X T ) E(X) E(X) T 47 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti kovariančnej matice Σ 1. Nech X = (X 1, X 2,...,X n ) T je náhodný vektor. B je matica typu m n s reálnymi prvkami a A je m-rozmerný nenáhodný vektor. Potom pre Y = A + B X platí E(Y) = A + B E(X), pre E(X i )<, i = 1, 2,...,n. D(Y) = B Σ B T, pre E(Xi 2 )<, i = 1, 2,...,n 48 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Korelačný koeficient Nech X, Y sú náhodné premenné, pre ktoré platí E(X 2 )<, E(Y 2 )<, D(X)>0, D(Y )>0. Potom číslo ρ X,Y = cov(x, Y ) D(X) D(Y ) nazývame korelačným koeficientom náhodných premenných X a Y. 49 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti korelačného koeficientu Korelačný koeficient je kosínus uhla α, ktorý zvierajú vektory u a v: cosα = u v u v. V geometrii sú vektory LZ ak zvierajú 0 uhol, tj cos0 = 1 alebo 180 uhol, tj cos180 = 1 a sú LNZ ak zvierajú 90, cos90 = 0: 1. ρ X,Y 1 2. ρ X,Y = 1 ak s pravdepodobnosťou 1 platí Y = ax + b, kde a, b R, a 0 3.ρ 2 X,Y nazývame koeficientom determinácie. Vyjadruje silu lineárnej závislosti dvoch náhodných premenných v percentách (po vynásobení 100) 50 RNDr. Mária Bohdalová, PhD. Štatistické metódy

Korelačná matica Maticu R, ktorej (i, j)-ty prvok je čísloρ Xi,Y j nazývame korelačnou maticou náhodného vektora X = (X 1, X 2,...,X n ) T ρ X1,X 1 ρ X1,Y 2 ρ X1,Y n ρ X2,X 1 ρ X2,Y 2 ρ X2,Y n R =........ ρ Xn,X 1 ρ Xn,Y 2 ρ Xn,Y n 51 RNDr. Mária Bohdalová, PhD. Štatistické metódy Vlastnosti korelačnej matice Nech X, Y sú nezávislé náhodné premenné s konečnými strednými hodnotami E(X) a E(Y ). Potom platí E(XY ) = E(X) E(Y ). Nech X, Y sú nezávislé náhodné premenné s konečnými druhými momentmi. Potom platí Σ = 0, kde Σ je kovariančná matica s prvkami cov(x, Y ) náhodných premenných X a Y Dva vektory X a Y sa nazývajú nekorelované, ak sa ich kovariančná matica rovná nule. 52 RNDr. Mária Bohdalová, PhD. Štatistické metódy