LINEARNI STATISTI^KI MODELI

Save this PDF as:
 WORD  PNG  TXT  JPG

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "LINEARNI STATISTI^KI MODELI"

Transcript

1 dil ing Zoran Radoji~i} LINEARNI SAISI^KI MODELI Beograd 999

2 - -

3 Linearni statisti~ki modeli Elementi matri~ne algebre 5 Vektori 5 Matrice 6 3 Neke va`nije osobine matrica Vrste odataka i merne skale 3 Vi{edimenzionalne slu~ajne romenljive 5 3 Sredina i kovarijaciona matrica 5 3 Podela vektora 6 33 Uzora~ka sredina i kovarijaciona matrica 7 34 Nekoliko va`nijih osobina uzora~ke sredine i kovarijacione matrice 4 4 Metoda glavnih komonenti 9 4 Definicija glavnih komonenti 30 5 Faktorska analiza 38 5 Istorijat 39 5 Model faktorske analize Metode izdvajanja faktora (metode ocenjivanja) Metoda glavnih komonenti Metoda glavnih faktora 50 6 Klaster analiza 54 7 Re{eni zadaci 59 8 Literatura

4 - 4 -

5 ELEMENI MARI^NE ALGEBRE Linearni statisti~ki modeli Vektori ili ili Niz x realnih brojeva x, x,, x n se naziva vektor i i{e x x x x n x [ x x x n ] x x x x n [ ] ri ~emu se oslednja oeracija naziva transonovanje kolone u vrstu Nad vektorima x i y su definisane slede}e oeracije: cx cx cx cx n x x + y x x y + y y x x x + y + y + y n n n n x y x y + x y + + x n y n (unutra{nji roizvod) - 5 -

6 x x x + x + + x n Za dva vektora x i y koji su iste dimenzije se ka`e da su linearno zavisni ako ostoje konstante c i c razli~ite od nule takve da je c x + c y 0 U o{tem slu~aju, za sku vektora x, x,, x k se ka`e da su linearno zavisni ako ostoje konstante c, c,, c k koje nisu sve jednake nuli tako da je c x + c x + + c x k k 0 Linearna zavisnost imlicira da se barem jedan vektor iz skua mo`e redstaviti kao linearna kombinacija ostalih Du`ina vektora x, u oznaci L x se defini{e kao L x + x + + x x x x n Matrice Matrica je ravougaona {ema sastavljena od redova (vrsta) i n kolona sa n elemenata: A a a a a a a a a a n [ aij ] n ( n) n n ransonovana matrica A' se dobija uzajamnom razmenom mesta redova i kolona i to onim redom kako se javljaju u matrici A a a a A a a a n a a a ( ) n n n A Mno`enje matrice konstantom c: c A ( n) ca ca ca ca ca ca ca ca ca n n n - 6 -

7 Dve matrice A i B istih dimenzija se mogu sabrati: [ ij ] [ ij ] [ ij ij ] A + B a + b a + b n n n Da bi se dve matrice A i B mogle me usobno omno`iti, neohodno je da budu saglasne, tj da matrica A ima onoliko kolona koliko matrica B ima redova: ( k ) ( k n) ( n) k A B C, tj c a b ij il lj l Kvadratna matrica je simetri~na ako je AA' odnosno a ij a ji i,j Primer : 3 5 matrica matrica 4 je simetri~na, nije simetri~na Nula matrica redstavlja matricu ~iji su svi elementi jednaki nuli i mo`e biti bilo kog tia: Jedini~na matrica I redstavlja matricu kod koje su svi ~lanovi na glavnoj dijagonali jednaki jedinici a svi ostali nuli: 0 0 I Determinanta kvadratne matrice ima formu det A A a a a n a a a n a a a n n nn Minor elementa a ij u determinanti A je determinanta reda n- koja se dobija iz det A kada se izbri{u njena i-ta vrsta i j-ta kolona - 7 -

8 Rang matrice je definisan kao veli~ina najve}e determinante koja je razli~ita od nule i koja se mo`e formirati od matrice A Druga~ije re~eno, rang matrice je najve}i red minora te matrice koji je razli~it od nule Za kvadratnu matricu se ka`e da je singularna ako je njena determinanta jednaka nuli Ako je det A 0, kvadratna matrica A je regularna (nesingularna) Matrica je sigurno singularna u slede}im slu~ajevima: ako su svi elementi jedne vrste ili kolone jednaki nuli, ako su vrste ili kolone matrice linearno zavisne Singularna matrica nema svoju inverznu matricu Kvadratna matrica A - se naziva inverzna matrica date kvadratne matrice A ako je: Za svaku dijagonalnu matricu A A AA I d 0 0 D 0 d d n ~iji su svi dijagonalni elementi d i 0, inverzna }e biti: D 0 0 d 0 0 d 0 0 d n Pozitivno definitna matrica je takva kvadratna matrica A koja ima osobinu da je odgovaraju}a kvadratna forma za svaki vektor 0 Ako va`i relacija A > 0 A 0 tada se matrica A, kao i odgovaraju}a kvadratna forma, naziva ozitivno semidefinitnom Ako je simetri~na matrica A ozitivno definitna onda je i matrica A - ozitivno definitna Pozitivno definitna matrica A je regularna, tj det A 0-8 -

9 Neka je A (k k) k) kvadratna matrica i I (k k) k) jedini~na matrica Skalari λ, λ,, λ k koji zadovoljavaju jedna~inu A λi 0 odnosno det( A λi) 0 ( ) nazivaju se karakteristi~ni koreni matrice A Jedna~ina ( ) se naziva karakteristi~na jedna~ina Primer : Za slede}u matricu A 0 3 se dobijaju dva karakteristi~na korena: A λi 0 0 λ 0 λ ( λ)( 3 λ) λ λ, λ 3 Primer 3: 3 4 A A λi λ λ λ 0 λ 3 λ + 36λ 405λ λ 9, λ 9, λ 8 3 Neka je A matrica dimenzije k k i λ njen karakteristi~ni koren ada, ako va`i x ( k ) ( k ) 0 i Ax λ x - 9 -

10 za x se ka`e da redstavlja karakteristi~ni vektor matrice A ridru`en karakteristi~nom korenu λ Ekvivalentan uslov je: Primer 4: ( A λi) x 0 Odrediti karakteristi~ne vektore matrice A 0 3 Iz rethodnog rimera smo dobili da je λ i λ 3 x x Ax x 0 x λ λ 3 x x x x + 3x x x x x x 0 x 3 x ( ) x x Ax x 0 x λ λ 3 x x 3x x + 3x 3x x 0 x x 0 x 3 3 x ( ) Iz ( ) sledi da ima beskona~no mnogo re{enja za x i x ako, ako uzmemo da je x dobijamo da je x -, tj x karakteristi~ni vektor koji odgovara karakteristi~nom korenu λ Iz izraza ( ) dobijamo da je x 0 a za x uzimamo roizvoljnu vrednost i dobijamo x 0 karakteristi~an vektor koji odgovara karakteristi~nom korenu λ 3-0 -

11 3 Neke va`nije osobine matrica Neka su A i B k k kvadratne matrice ada va`i: a) A A' b) Ako su svi elementi jedne vrste (kolone) matrice A jednaki nuli, tada je: A 0 c) Ako su bilo koje dve vrste (kolone) matrice A identi~ne, tada je: A 0 d) Ako je A nesingularna matrica, tada je: A A, tj A A e) AB A B k f) ca c A, gde je c skalar Neka je A k k kvadratna matrica rag matrice A, A u oznaci tr(a) je jednak zbiru elemenata na glavnoj dijagonali: tr( A) Neka su A i B k k kvadratne matrice i c skalar ada va`i: a) tr( ca) ctr( A) b) tr( A ± B) tr( A) ± tr( B) c) tr( AB) tr( BA) d) tr( B AB) tr( A) e) tr( AA ) a k k i j ij k i a ii - -

12 VRSE PODAAKA I MERNE SKALE Statisti~ka obele`ja mogu biti kvantitativna i kvalitativna (nominalna) Kvantitativna obele`ja se dele na nerekidna (jedinica mere se mo`e beskona~no deliti) i rekidna Primer : ( ), vektor obele`ja (romenljivih), { } E e, e,, e, N sku jedinica osmatranja (entiteta) N Iz skua objekata (sku ljudi) izabrana su 3 objekta (3 mu{karca) stara izme u 30 i 40 godina i nazvana e j, e k i e q Pretostavimo da nas o objektima e j, e k i e q zanimaju slede}e karakteristike: - broj dece (dobijen brojanjem) - broj ~lanova u`e orodice (dobijen brojanjem) 3 - telesna masa (dobijena merenjem u gramima) 4 - inteligencija (kao broj re{enih zadataka od ukuno 60) 5 - obrazovanje (steen stru~ne sreme: magistrat, fakultet, 3 vi{a {kola) - sortska igra koju najvi{e vole 6 Dobijeni su slede}i rezultati: e j fudbal e k ko{arka e q fudbal abela - -

13 Sku objekata redstavlja sku jedinica osmatranja (entiteta): {Pera, Karakteristike redstavljaju obele`ja abelu nazivamo matrica odataka i ona je oblika [ ] x ij N odnosno, u na{em slu~aju [ x ij ] 3 6 gde je x ij realizacija x i na e j Kako za svaku od isitanih karakteristika entiteti mogu imati razli~ite rezultate to }emo rezultate dobijene utvr ivanjem neke karakteristike nazivati romenljivim (varijablama) Osobine definisanih varijabli: broj dece (rekidna kvantitativna varijabla) uzima vrednost iz skua ozitivnih celobrojnih vrednosti uklju~uju}i i nulu rezultati se ne mogu na smislen na~in odvrgnuti nikakvoj transformaciji ve} moraju ostati takvi kakvi jesu kako su merne jedinice definisane onim {to se meri re~ je o asolutnim skalama broj ~lanova u`e orodice (rekidna kvantitativna) varijabla je tako definisana da i sam entitet ulazi u broj ~lanova u`e orodice (nr e k je o~igledno samac bez dece) iz ovoga bi se moglo zaklju~iti da se u zaklju~ivanju ni{ta nebi romenilo ako od svakog rezultata oduzmemo jedinicu a rema tome dobija vrednosti: rema tome, veli~ina varijabli ovog tia je odre ena do neke roizvoljne konstante koju mo`emo dodati ili oduzeti a se zato ove skale nazivaju aditivne skale 3 telesna masa (nerekidna kavntitativna) ovde je re~ o skali odnosa koja ima slede}e osobine: a) koli~nik ma koje dve vrednosti ima smislenu interretaciju nr e q je dva uta te`i od e j b) rastojanje izme u dva objekta mereno na ma kom delu ove skale je jednako nr e j ima 50 grama manje od entiteta e k, a e q grama vi{e od e j c) vrednostima ozicioniranim na skali mogu se dodeliti rangovi od vi{eg ka ni`em nr e q ima vi{i rang od e k - 3 -

14 4 inteligencija (nerekidna kvantitativna) nema realnu nultu ta~ku (nema ljudskog stvora sa inteligencijom nula) merne jedinice su roizvoljne (bodovi na testu) oseduje osobine b i c (za drugi test druge vrednosti) ove skale se nazivaju intervalnim jer je jedino interval (razmak) izme u rezultata definisan nr razlika u inteligenciji izme u entiteta e j i e q je jednaka kao i izme u entiteta e j i e k 5 obrazovanje (kvalitativna varijabla koja u ovom slu~aju uslovno mo`e da ro e kao kvantitativna, kao steen stru~ne sreme) vrednosti varijable ne ozna~avaju koli~inu ve} rang, a se zato nazivaju ordinarnim varijablama ili varijablama koje le`e na nekoj ordinarnoj skali oseduju samo osobinu c 6 sortska igra koju najvi{e vole (kvalitativna varijabla) rezultat ne govori ni{ta ni o koli~ini ni o redosledu ve} samo o tome koje svojstvo ima neki entitet iz grue me usobno isklju~ivih svojstva kako oznaka riadanja ne ozna~ava nikakvu veli~inu, varijable ovog tia se nazivaju kvalitativnim ili nominalnim varijablama Klasifikacija metoda multivarijacione analize u zavisnosti od vrste romenljivih: kvantitativne romenljive: metoda glavnih komonenti faktorska analiza klaster analiza vi{estruka korelacija vi{estruka regresija man-ova metoda (multidimenziona analiza varijanse) kanoni~na korelaciona analiza kvalitativne romenljive: loglinearni modeli diskriminaciona analiza (samo zavisna romenljiva mora da bude kvalitativna) - 4 -

15 3 VI[EDIMENZIONALNE SLU^AJNE PROMENLJIVE Linearni statisti~ki modeli 3 Sredina i kovarijaciona matrica Ozna~imo jednodimenzionalnih slu~ajnih romenljivih sa,,, Sku ovih slu~ajnih romenljivih nazivamo slu~ajni vektor (vektor obele`ja) ( ), Realizaciju na e i ozna~avamo sa ( ) x( i) xi xi xi Za svaku jednodimenzionalnu slu~ajnu romenljivu mo`emo odrediti sredinu µ i E( i ) i varijansu σ i E( i -µ i ), i,,, Sredina slu~ajnog vektora je ( ) ( ) µ E( ) E( ) E( ) E( ) µ µ µ Za ma koji ar slu~ajnih romenljivih i i j defini{emo kovarijansu [ ] σ E ( µ )( µ ) Cov(, ) σ σ ij i i j j i j σ Var( ) ii i i ij σ ji - 5 -

16 Za slu~ajni vektor se defini{e simetri~na matrica koja se naziva kovarijaciona matrica od sa znakom Σ: σ σ σ Σ [ σ ij ] σ σ σ σ σ σ Kovarijaciona matrica se mo`e iskazati i kao o~ekivana vrednost slu~ajne matrice ( µ ) ( µ )( µ ) ( µ )( µ ) Σ ( µ )( µ ) ( µ ) ( µ )( µ ) ( )( ) ( )( ) ( ) µ µ µ µ µ Na kraju, kovarijacionu matricu mo`emo iskazati kao o~ekivanu vrednost slede}e matrice odstuanja: [( i µ i )( j µ j )] E( W) E[ µ µ ] W Σ ( )( ) 3 Podela vektora ^esto se tokom istra`ivanja javlja otreba da romenljivih osmatramo razdvojeno: gde su ( q q q ) + + U tom slu~aju vr{imo odelu sredine µ i kovarijacione matrice Σ µ ( µ µ ) Σ Σ Σ Σ Σ Σ Σ Σ Σ Σ ( ) [ σ ij ] ( ) [ σ ij ] ( 3) [ σ ij ] q q ( q) ( q) ( q) q Σ Σ - 6 -

17 33 Uzora~ka sredina i kovarijaciona matrica Primer 3: Za matricu odataka e j fudbal e k ko{arka e q fudbal odrediti realizovanu vrednost sredine vektora za rve dve varijable ( - broj dece, - broj ~lanova u`e orodice) Slu~ajni vektor (vektor obele`ja) ( ) u na{em slu~aju je ( ) , Sku jedinica osmatranja (entiteta) {,,, } E e e e N u na{em slu~aju je Matrica odataka { j k q} E e, e, e, N 3 [ ] x ij N u na{em slu~aju je x x x x x x x x x x x x x x x x x x

18 tj fudbal kosarka fudbal U daljem radu se ne}emo sretati sa nominalnim varijablama u matrici odataka dok }emo matricu odataka zadavati uglavnom na ovaj na~in U ovom rimeru je re~ o uzorku iz vi{edimenzionalnog rasoreda Vi{edimenzionalni rasored se oisuje nekom merom centralne tendencije i nekom merom diserzije (rasianja) Za meru centralne tendencije naj~e{}e se uzima sredina slu~ajnog vektora koja se ozna~ava sa µ E( µ ) µ E( ) µ E( ) µ ( µ µ µ ) Za meru varijabiliteta naj~e{}e se uzima kovarijaciona matrica od koja se ozna~ava sa Cov() ili Σ σ σ σ Σ σ σ σ σ σ σ gde je σ ii σ i, i,,, Ako defini{emo simetri~nu matricu kvadrata ( µ ) ( µ )( µ ) ( µ )( µ ) ( µ )( µ ) ( µ ) ( µ )( µ ) ( µ )( µ ) ( µ )( µ ) ( µ ) koja je roizvod slu~ajnih vektora odstuanja od sredine, tj ( µ )( µ ) onda je njena o~ekivana vrednost jednaka kovarijacionoj matrici: [( )( ) ] E µ µ Σ - 8 -

19 Iz vi{edimenzionalne rasodele se mo`e izra~unati i korelaciona matrica ρ i to reko kovarijacione matrice U matri~noj notaciji to izgleda ovako: ρ D Σ D gde je D dijagonalna matrica koja sadr`i elemente na glavnoj dijagonali kovarijacione matrice (matrica standardnih devijacija), tj ρ σ σ σ σ σ σ σ σ σ σ σ σ σ σ σ ρ ρ ρ ρ ρ ρ gde je ρ ij koeficijent korelacije izme u i i j : ρ ij σ σ ij Na osnovu usostavljene relacije mo`e se naisati da je Σ D ii σ jj ρ D Na osnovu matrice odataka smo u mogu}nosti da izra~unamo okazatelje uzorka: sredinu uzorka, kovarijacionu matricu uzorka i korelacionu matricu uzorka Uzora~ka sredina je data sa: ( ) - 9 -

20 gde je j N ij, j,,, N i Uzora~ku kovarijacionu matricu defini{emo reko matrice centriranih odataka * i matrice uzajamnih roizvoda centriranih odataka * ' * odnosno ' * * N * N N N N N N ( i ) ( i )( i ) ( i )( i ) i i i N N ( i )( i ) ( i ) ( i )( i ) i i N N ( i )( i ) ( i )( i ) ( i ) i i i N i a je uzora~ka kovarijaciona matrica S ( ( ) ) S N N ' ( i )( i )' N * * i Uzora~ka korelaciona matrica je r r3 r r r r R 3 r3 r3 r3 r r r3 gde su r ij uzora~ki koeficijenti korelacije r ij Sij, i, j,,, S S ii jj a S ij elementi uzora~ke kovarijacione matrice S N N ( )( ), i, j,,, ij ki i kj j k - 0 -

21 Do uzora~ke kovarijacione matrice smo mogli do}i i koriste}i relaciju koju smo usostavili izme u kovarijacione i korelacione matrice oulacije: R D S D Vratimo se rimeru Interesuje nas matrica odataka x x x x x x i,, 3 N 3, j, reba odrediti : + + ( ) + + ( ) 3 67 {to govori da je rose~an broj dece a rose~an broj ~lanova u`e orodice 367 Primer 3: Realizovane vrednosti slu~ajnog uzorka su date matricom odataka 3 4 Odrediti realizovanu vrednost uzora~ke kovarijacione matrice Prvo }emo izra~unati uzora~ku sredinu : N + + ( 4 ) + + 3, 3, ( 3 3 ) - -

22 Zatim ra~unamo matricu centriranih odataka * : * Kako je N3 i * 3 3 N N N Nakon toga ra~unamo matricu uzajamnih roizvoda centriranih odataka * ' * ' * * a je uzora~ka kovarijaciona matrica S N ' * * Odavde je S 9, S i S S 3 (negativna linearna veza) Za doma}u ve`bu na}i kovarijacionu matricu uzorka za odatke date u rimeru 3 Primer 33: Za odatke iz rethodnog rimera odrediti realizovanu vrednost uzora~ke korelacione matrice koriste}i relaciju usostavljenu izme u nje i kovarijacione matrice Na osnovu izra~unate kovarijacione matrice 9 S

23 formiramo dijagonalnu matricu D a zatim izra~unavamo korelacionu matricu R D S D R ^esto se tokom istra`ivanja javlja otreba da romenljivih osmatramo razdvojeno, odnosno da ih tretiramo kao da riadaju dvema gruama romenljivih tako da dobijamo ( q q q ) + + ( ) [ ] ( q+ q+ ) [ ] q x ij N q, x ij N s ako nr ako isitujemo uticaj demografskih faktora na otro{nju roizvoda {iroke otro{nje tada }emo vektor dimenzije odeliti na vektor u koji }e u}i slede}i odsku romenljivih: ol, starost i stru~na srema, i na vektor u koji }e u}i romenljive otro{nje hleba, mesa, mleka, ovr}a i vo}a ol - starost - stru~na srema - otro{nja hleba - otro{nja mesa - otro{nja mleka - otro{nja ovr}a - otro{nja vo}a odela vektora ( ) ( ), q

24 ( ) , s U skladu sa odelom slu~ajnog vektora vr{imo odelu sredine µ i kovarijacione matrice Σ: gde su: µ i µ Σ ( q ) ( q ) µ ( µ µ ) Σ Σ Σ Σ Σ sredine slu~ajnih vektora i i Σ kovarijacione matrice slu~ajnih vektora i ( q q) ( s s) dok su elementi matrice Σ ( q s) kovarijanse izme u elemenata slu~ajnih vektora i sa osobinom Σ Σ 34 Nekoliko va`nijih osobina uzora~ke sredine i kovarijacione matrice Neka su slu~ajne romenljive j i k linearno transformisane tj neka su definisane nove slu~ajne romenljive c + a i d + b, a, b, c i d su realne konstante j k ada, na osnovu definicije kovarijanse, sledi Cov( c + a, d + b) cd Cov(, ) j k j k Uo{timo ovaj slu~aj na linearnu kombinaciju slu~ajnih romenljivih iz slu~ajnog vektora sa sredinom µ i kovarijacionom matricom Σ Linearnom kombinacijom Y a + a + + a a za dati vektor linearne kombinacije ( ) a a a a defini{emo novu slu~ajnu romenljivu Y ~ija je o~ekivana vrednost µ E( Y) E( a ) a µ Y

25 i varijansa σ Y Var( Y) Var( a ) a a σ a Σ a i j i j ij Razmotrimo sada jo{ o{tiji slu~aj q linearnih kombinacija slu~ajnih romenljivih Y a + a + + a Y a + a + + a Y a + a + + a q q q q ili ako ove linearne kombinacije izrazimo u matri~noj formi gde je Y (qx) tada je (qx) vektor, a [ ] (qx) A a ij q Y A matrica koeficijenata linearnih kombinacija, µ E( Y) E( A ) Aµ Σ Y Y Cov( Y) Cov( A ) AΣ A gde su µ i Σ sredina i kovarijaciona matrica slu~ajnog vektora, resektivno Na kraju, neka su date matrice [ ij ] [ ij ] A a i B b q s r ~iji su elementi realni brojevi Sada mo`emo da formiramo q linearnih kombinacija slu~ajnih romenljivih Y A i s linearnih kombinacija r slu~ajnih romenljivih Z ( Z Z Z ) W BZ Ako sa Σ Z dimenzije r ozna~imo matricu kovarijansi izme u j, j,,, i Z k, k,,, r, tada je r Σ YW Cov( Y, W) Cov( A, BZ) AΣ B Z - 5 -

26 Primer 34: Izra~unati sredine, varijanse i kovarijanse slede}e dve linearne kombinacije na osnovu odataka iz rimera 3: a) direktno, na osnovu oservacija za Y i Y b) indirektno na osnovu izra~unate uzora~ke sredine i uzora~ke kovarijacione matrice S A reba da dobijemo Y y y y y y y 3 3 Imamo dve linearne kombinacije: x Y a + a a [ ] x x x + x Y a + a a [ 3 ] 3x x x a) Za rvu linearnu kombinaciju Y [ ] a x x imamo realizovane vrednosti oservacija y, y i y 3 tj Naomena: ( ) x x x 3 y 3 ( ) 3 y y y 3 ( )( ) ( ) ( )

27 [( ] ) + ( 0 3 ) + ( 3 ) 9 S Y Za drugu linearnu kombinaciju je Y x a [ 3 ] x y y y 3 3 ( ) + ( ) ( ) ( ) a je y ( ) 3 [( + ) + (8 + ) + ( + ) ] 03 3 S Y Cov( Y, Y ) S 3 k ( y y )( y y ) k k 3 (8 3)( + ) + ( 0 3)(8 + ) + ( 3)( + ) S Y b) Indirektno: Y Y a A Y a a a x x y y Ax y

28 Za uzora~ku kovarijacionu matricu imamo iste relacije kao i za oulaciju, tj Σ S Y Y AΣ A' AS A' S Y Primer 35: Zavod za statistiku u svojoj redovnoj anketi o otro{nji doma}instava rikulja odatke o njihovim rihodima i rashodima o razli~itim kategorijama za oljorivredna, me{ovita i neoljorivredna doma}instva Izabran je slu~ajan uzorak od {est doma}instava i izmereni su slede}i odaci: broj ~lanova doma}instva, - godi{nja rasolo`iva sredstva, - izdaci za ishranu, - izdaci za obrazovanje i razonodu Izra~unati kovarijacionu i korelacionu matricu uzorka Re{enje: S R

29 4 MEODA GLAVNIH KOMPONENI Ideja metode glavnih komonenti je da se originalne romenljive transformi{u u nove romenljive, odnosno, linearne kombinacije Polazimo od vektora obele`ja ( ), Ako je, na rimer, 0 (0 obele`ja) njihova me usobna ovezanost iskazana je omo}u 90 koeficijenata korelacije {to redstavlja roblem kako za razumevanje, tako i za interretaciju Zato }emo ovih romenljivih zameniti manjim brojem linearnih kombinacija tia Li ', i,, ali tako da su te linearne kombinacije nezavisne me u sobom i da sadr`e {to je mogu}e vi{e inicijalnog varijabiliteta Prva glavna komonenta je konstruisana tako da obuhvata najve}i deo varijanse originalnog skua odataka Druga glavna komonenta obuhvata najve}i deo reostale varijanse originalnog skua odataka i tako redom Analiza glavnih komonenti je bazirana na retostavci da }e relativno mali broj glavnih komonenti dobro aroksimirati kovarijacionu strukturu skua originalnih romenljivih Ovim metoda glavnih komonenti osti`e dva cilja: vr{i redukciju originalnog skua odataka olak{ava interretaciju kovarijacione strukture originalnih romenljivih na bazi manjeg broja me usobno nekorelisanih glavnih komonenti ako }emo umesto 0 romenljivih u daljoj analizi koristiti 4 linearne kombinacije - 9 -

30 4 Definicija glavnih komonenti Neka je ( ), slu~ajni vektor sa kovarijacionom matricom Σ Prvu glavnu komonentu odre ujemo kao Y l + l + + l L ' linearnu kombinaciju elemenata slu~ajnog vektora, gde su l, l,, l koeficijenti linearne kombinacije Od ranije znamo da je Var( Y ) Var( L ' ) L ' Σ L Na{ zadatak je da odredimo vektor koeficijenata L tako da se maksimizira varijansa od Y Ovde se uvodi uslov ortogonalnosti same transformacije jer se to okazalo jako korisno u raksi i omogu}uje se otimizacija, tj uvodimo uslov L ' L odnosno ho}emo da maksimiziramo L ' Σ L uz ograni~enje L ' L o se radi uz omo} Lagran`ovih mno`itelja Diferenciranjem Lagran`ove funkcije o koeficijentima L a zatim izjedna~avanjem dobijenog izraza sa nulom dobijamo ili ΣL λ L 0 ( Σ λi) L 0 gde je I ( ) ) jedini~na matrica, λ jedan od karakteristi~nih korena kovarijacione matrice Σ i to najve}i λλ, a L je karakteristi~ni vektor Da bi se dobilo netrivijalno re{enje za L treba da je isunjeno Σ λi 0 Svaku slede}u linearnu kombinaciju odre ujemo sli~no uz dodatni uslov da se radi o nekorelisanim veli~inama (da je kovarijansa izme u rve i druge glavne komonente jednaka nuli) ΣL λ L

31 ili ( Σ λi) L 0 gde za λ biramo {to je mogu}e ve}u vrednost λλ L je karakteristi~ni vektor a linearna kombinacija Y L ' redstavlja drugu glavnu komonentu Rezime: Ako su svi karakteristi~ni koreni matrice Σ me usobno razli~iti (uredili smo ih u oadaju}i niz λ >λ >>λ 0) tada ostoji glavnih komonenti tj Y, Y,, Y Y L ', j,,, j j Vektori koeficijenata L, L,, L redstavljaju karakteristi~ne vektore matrice Σ koji su ridru`eni karakteristi~nim korenima λ j 3 Primer 4: E( Y ) 0 j Var( Y ) L ' Σ L λ j j j j Cov( Y, Y ) 0, i j i j λ 0 0 Λ 0 λ λ Za datu kovarijacionu matricu odrediti sve glavne komonente Σ

32 Glavne komonente su: Y L ' Y L ' Y L ' 3 3 Prvu glavnu komonentu ra~unamo iz uslova ( ) Σ λ I L 0 odnosno ~e{}e se umesto L i{e P (rincial comonents) odnosno ( ) Σ λ I P 0 ΣP λ P a sledi da je otrebno izra~unati karakteristi~ne korene kovarijacione matrice Σ Σ λ 0 0 Σ λ I 0 λ ( 4 λ)( λ 6λ + 4) 0 [ta ne valja? 0 4 λ λ 4, λ 0 769, λ Po definiciji glavnih komonenti, λ je najve}i karakteristi~ni koren, λ drugi o veli~ini, itd a je a }e biti ΣP λ P λ 5 36, λ 4, λ

33 Re{avanjem ovog sistema dobija se ( ) P ' Sada ra~unamo drugu glavnu komonentu: ( ) Σ λ I P 0 ΣP λ P P ' ( 0 0) re}a komonenta: ( ) Σ λ 3 I P 3 0 ΣP λ P

34 Primer 4: ( ) P 3 ' Na kraju, glavne komonente su: Y L ' P ' Y L ' P ' Y L ' P ' Zadovoljeni su uslovi normiranosti L'L: za P ' ( ) imamo 0 +(-0557) za P ' ( 0 0) imamo za P 3 ' ( ) va`i isto kao i za P ' Na rethodnom rimeru okazati da je varijansa dobijenih glavnih komonenti jednaka odgovaraju}im karakteristi~nim korenima a da je kovarijansa izme u svakog ara glavnih komonenti jednaka nuli itd reba dokazati da je Var( Y j ) λ j za j,,,, tj Var( Y ) Var( ) λ Provera korelisanosti rve i druge glavne komonente: Cov( Y, Y ) Cov( ; )

35 Naomena: Generalizovana varijansa se odre uje o dve definicije Po rvoj definiciji generalizovana varijansa je jednaka determinanti kovarijacione matrice Kovarijaciona matrica glavnih komonenti je dijagonalna matrica ~iji su elementi karakteristi~ni koreni matrice Σ i ozna~ava se sa Λ λ 0 0 Λ 0 λ λ Prema tome generalizovana varijansa vektora Y je jednaka determinanti Λ Po drugoj definiciji generalizovana varijansa je jednaka tragu kovarijacione matrice rag kovarijacione matrice je jednak zbiru karakteristi~nih korena λ j Kori{}enjem ortogonalne matrice P (x) ~iji su redovi karakteristi~ni vektori kovarijacione matrice Σ, mo`emo izvr{iti ortogonalnu dekomoziciju matrice Σ ~iji su koreni razli~iti Imamo da je ili u razvijenom obliku ako e je Σ [ L L L ] Σ P' Λ P λ 0 0 L ' 0 λ 0L ' 0 0 λ L ' Λ PΣP' j λ L L ' j j j Uz kori{}enje osobine traga matrice tr(bc)tr(cb) imamo da je o{to je P'PI tr( Λ) tr( PΣP') tr( P' PΣ) tr( Σ)

36 Primer 43: Neka su za vektor (,, 3 ) oznati korelacioni koeficijenti r 05, r 3 03 i r 3 0 i neka su date rve dve glavne komonente kao Y i Y Izra~unati: a) Koliko treba uzeti glavnih komonenti da bi se obuhvatilo barem 85% varijabiliteta i koliko rocenata ukunog varijabiliteta nosi svaka od glavnih komonenti Y, Y i Y 3? Izra~unati generalizovanu varijansu vektora kori{}enjem varijanse glavnih komonenata i okazati za{to je to mogu}e b) Aroksimirati korelacionu matricu na osnovu rojekcije trodimenzionalnog vektora u rostor rve glavne komonente c) Korelaciju izme u rve glavne komonente Y i varijable kao i izme u druge glavne komonente Y i varijable ( ) 3 Y Y R 0 Da bi va`io uslov α α, inicijalne glavne komonente treba odeliti a se dobija: P P ( ) ( ) a) λ λ λ 0 46 λ λ + λ + λ 3 λ

37 Prva glavna komonenta nosi 567% varijabiliteta, druga 767% a tre}a 67% varijabiliteta Da bi se obuhvatilo 85% varijabiliteta otrebne su sve tri glavne komonente b) c) λα α [ ] ρ α λ Y ρ α λ Y

38 5 FAKORSKA ANALIZA Faktorska analiza je metod multivarijacione analize koji se koristi za ois me usobne zavisnosti velikog broja romenljivih kori{}enjem manjeg broja osnovnih ali neoa`ljivih slu~ajnih romenljivih (faktora) Sli~no kao metoda glavnih komonenti i faktorska analiza se koristi za redukciju skua odataka aroksimiraju}i kovarijacionu ili korelacionu matricu originalnih romenljivih Izme u metode glavnih komonenti i faktorske analize ostoje slede}e razlike: Analiza glavnih komonenti se bazira na varijansama - interesuju nas dijagonalni elementi kovarijacione matrice, dok nas kod faktorske analize interesuju vandijagonalni elementi Za razliku od analize glavnih komonenti, faktorska analiza retostavlja ostojanje teorijskog modela kojim se usostavlja relacija izme u oservacija -dimenzionalne romenljive i manjeg broja zajedni~kih faktora 3 ^esto se analiza glavnih komonenti tretira kao secifi~an slu~aj ili rva faza u faktorskoj analizi (SPSS) 4 Analiza glavnih komonenti izu~ava ukuan varijabilitet skua odataka Nasurot njoj, faktorska analiza olazi od razlaganja varijabiliteta na dva dela: zajedni~ki deo i secifi~ni deo Zajedni~ki deo je onaj deo varijacija romenljive koji ona deli sa ostalim romenljivama Sa druge strane, secifi~ni deo je onaj deo varijacija romenljive koji je oseban (secifi~an) za tu romenljivu Faktorska analiza izu~ava zajedni~ki deo varijabiliteta za sve romenljive 5 U obe metode se javljaju dve vrste romenljivih: oa`ljive romenljive koje ~ini originalni sku odataka i neoa`ljive (latentne) romenljive Me utim, u analizi glavnih komonenti na osnovu linearne kombinacije oa`ljivih romenljivih se formiraju glavne komonente kao neoa`ljive komonente, dok se u faktorskoj analizi na osnovu faktora kao neoa`ljivih komonenti izra`avaju originalne romenljive

39 5 Istorijat Krajem I veka Galton i Sirman ostavljaju roblem inteligencije: Da li je inteligencija bazirana na jednom bazi~nom tj o{tem faktoru ili se bazira na nekoliko zajedni~kih faktora kao {to su nr verbalna sosobnost, matemati~ka sosobnost, memorija? Primer 5: ^arls Sirman je 904 godine izu~avao riremljenost dece za {kolu i dobio je korelacionu matricu rezultata testova iz klasike ( ), francuskog ( ), engleskog ( 3 ) i matematike ( 4 ) u obliku Sirman je uo~io roorcionalnost ma koja dva reda ili kolone u ovoj matrici (ako se zanemare elementi na glavnoj dijagonali) ako za elemente drugog i tre}eg reda imamo Zato Sirman redla`e redukciju roblema sa 4 na tako {to rezultate svih testova ( i, i,, 3 i 4) iskazuje reko modela gde su β F + ε, i,, 3, 4 i i i F β i ε i - zajedni~ki faktor, - koeficijenti (faktorska otere}enja), - slu~ajne gre{ke (secifi~ni faktori) Dakle, Sirman je formulisao dvofaktorsku teoriju testova inteligencije rema kojoj se rezultat svakog testa mo`e dekomonovati na dva dela: rvi, koji je zajedni~ki za sve testove (F) i koji se mo`e interretirati kao "o{ta sosobnost" ili "inteligencija", i drugi, koji je secifi~an za svaki test (ε i ) Naomena: Kasnijim istra`ivanjima rvobitni model je ro{iren tako {to je uvedeno nekoliko zajedni~kih faktora (retostavlja se da ostoje osebne vrste inteligencija - sosobnosti), a i secifi~an faktor je razlo`en na dva dela od kojih rvi okazuje u kom steenu se ne~ija individualna sosobnost u nr matematici razlikuje od o{te sosobnosti i drugi koji

40 redstavlja ~injenicu da su rezultati testiranja samo aroksimacija sosobnosti individue u konkretnoj oblasti (iak samo test - air) 5 Model faktorske analize Neka je -dimenzioni vektor oa`ljivih romenljivih sa sredinom µ i kovarijacionom matricom Σ Pretostavimo da se vektor oa`ljivih romenljivih mo`e izraziti reko skua od m neoa`ljivih romenljivih koje nazivamo zajedni~ki faktori u oznaci F, F,, F m (m<<) i reko skua ε, ε,, ε secifi~nih ali neoa`ljivih faktora ada model u razvijenom obliku izgleda ili ekvivalentno u matri~noj notaciji gde je ( µ ) β F + β F + + β F + ε m m ( µ ) β F + β F + + β F + ε m m ( µ ) β F + β F + + β F + ε m m µ B F + ε ( ) ( m) ( m ) ( ) µ µ µ µ F F F F ε ε ε ε m β β β m B β β βm β β βm Poslednja matrica redstavlja matricu faktorskih otere}enja a β ij faktorsko otere}enje i-te romenljive na j-ti faktor Naomena: Na rvi ogled model faktorske analize li~i na model vi{estruke regresije, me utim ovde odstuanja ( -µ ),, ( -µ ) izra`avamo reko m+ slu~ajnih romenljivih F, F,, F m i ε, ε,, ε koje su neoa`ljive za razliku od regresionog modela gde su nezavisne romenljive oa`ljive U model se uvode slede}a dodatna ograni~enja:

41 E( F) 0 Cov( F) E( FF') Φ i dalja izlaganja se baziraju na secifi~nom slu~aju faktorske analize kada je Φ I odnosno, radi se o ortogonalnom modelu kod koga su faktori F, F,, F m me usobno nezavisni [to se ti~e secifi~nih faktora va`i E( ε) 0 Ψ 0 0 Cov( ε) E( εε') Ψ 0 Ψ Ψ ako e retostavljamo da su zajedni~ki faktori nezavisni od secifi~nih tj da je Cov( ε, F) E( ε F') 0 Vezu izme u odstuanja oa`ljivih romenljivih od njihove sredine i neoa`ljivih faktora µ B F+ ε odnosno µ + B F + ε ( ) ( ) ( m) ( m ) ( ) zajedno sa navedenim retostavkama nazivamo ortogonalni model faktorske analize sa m zajedni~kih faktora Ovaj model omogu}uje razlaganje kovarijacione matrice Σ Naomena: Σ Cov( ) BB' + Ψ U o{tem slu~aju, kad ne va`i uslov ortogonalnosti tj kada je Φ I, razlaganje kovarijacione matrice Σ je Kako je Σ BΦB' + Ψ - 4 -

42 Cov(, F) E( BF + ε) F' BE( FF') + E( ε F') B zna~i da su elementi matrice faktorskih otere}enja kovarijanse izme u originalnih romenljivih i faktora Korelacionu matricu romenljivih i faktora F nazivamo matrica faktorske strukture Naomena: U slu~aju ortogonalnog modela faktorske analize va`i da je Cov(, F) Cor(, F) U o{tem slu~aju se ove dve vrednosti me usobno razlikuju Na osnovu razlaganja kovarijacione matrice kod ortogonalnog modela faktorske analize imamo da je varijansa i-te romenljive Σ BB' + Ψ σ Var( ) β + β + + β + Ψ ii i i i im i tj varijansa i-te originalne romenljive je odeljena na dva dela: rvi deo je h i β i + β i + + β im i redstavlja varijansu obja{njenu zajedni~kim faktorima i nazivamo ga zajedni~ka varijansa ili komunalitet drugi deo nazivamo secifi~na varijansa Primer 5: Data je kovarijaciona matrica Σ i jednakost - 4 -

43 Dokazati da va`i Σ BB' + Ψ Iz jednakosti sledi ostojanje dva zajedni~ka faktora (m) a je 3 B Ψ Potrebno je da na osnovu ortogonalnog modela faktorske analize odredimo komunalitete sve ~etiri originalne romenljive i razlo`imo njihove varijanse Komunalitet rve romenljive: h β + β jer je β β B β β β β β β a je razlaganje varijanse σ na komunalitet i secifi~nu varijansu jer je h + Ψ σ 5 3+ Ψ Ψ Ψ Ψ Ψ4 Sli~no se dobija da je

44 σ σ σ h + Ψ h + Ψ h + Ψ odnosno h h h 3 4 β + β β + β ( ) β + β Naomena: Kori{}enjem korelacione umesto ovarijacione matrice dobijamo da se jedini~na varijansa standardizovane romenljive sastoji iz dva dela: Var( ) h + Ψ i i i Generalizovana varijansa (ukuna varijansa) originalnog skua romenljivih je oblika m tr( Σ) σii β ij + Ψi i i j i Ako sa h ozna~imo ukuan komunalitet od tada se mo`e isati m i i j h h i β ij tr( Σ) h + tr( Ψ) Zna~i da je generalizovana varijansa od jednaka zbiru dve komonente: ukunog komunaliteta i ukune varijanse secifi~nih faktora Formiranjem koli~nika i β ij, j,,, m h dobija se roorcija ukunog varijabiliteta koja se mo`e riisati j-tom zajedni~kom faktoru Primer 53:

45 Na osnovu ortogonalnog modela faktorske analize iz rethodnog rimera odrediti ukunu varijansu, ukuan komunalitet, ukunu secifi~nu varijansu i dorinose svakog faktora ukunom komunalitetu Σ Ukuna varijansa: 3 B Ψ tr( Σ ) σ + σ + σ 33 + σ Ukuan komunalitet: h h + h + h + h Ukuna secifi~na varijansa: tr( Ψ) Ψ + Ψ + Ψ3 + Ψ Dorinos rvog zajedni~kog faktora ukunom komunalitetu, j: β + β + β3 + β h ( ) % 48 Dorinos drugog zajedni~kog faktora ukunom komunalitetu, j: β + β + β3 + β h % 48 Naomena: Faktorska analiza se naj~e{}e obavlja na standardizovanim romenljivama, odnosno vr{imo razlaganje korelacione matrice 53 Metode izdvajanja faktora (metode ocenjivanja)

46 Na osnovu uzorka uzetog iz -dimenzione oulacije ocenjuje se model faktorske analize, odnosno roveravamo da li va`i razlaganje kovarijacione (ili korelacione) matrice koje je imlicirano tim modelom Postoje dve osnovne metode ocenjivanja modela faktorske analize: metoda glavnih komonenti (glavnih faktora) metoda maksimalne verodostojnosti Metoda glavnih komonenti se javlja u dve varijante: direktno kori{}enje metode glavnih komonenti na kovarijacionu ili korelacionu matricu radi istovremenog ocenjivanja komunaliteta i matrice faktorskih otere}enja (metoda glavnih komonenti) korelaciona matrica se modifikuje u duhu modela faktorske analize a zatim se iterativno i odvojeno ocenjuju komunaliteti i faktorska otere}enja rimenom metode glavnih komonenti na tu modifikovanu korelacionu matricu (metoda glavnih faktora) 53 Metoda glavnih komonenti U uzora~kom slu~aju ostuak rimene metode glavnih komonenti u ocenjivanju faktorskog modela zahteva odre ivanje karakteristi~nih korena ~ λ J i karakteristi~nih vektora ~ α J Na osnovu rvih m faktora formiramo matricu ocenjenih faktorskih otere}enja rema slede}em izrazu: [ ] ~ ~ λ ~ α ~ λ ~ α ~ λ ~ α B Ocenjene secifi~ne varijanse dobijamo kao dijagonalne elemente matrice a je a ocenjeni komunaliteti su S BB ~~ ' m ~ ~ Ψi s ii β ij, i,,, j ~ ~ ~ ~ h β + β + + β, i,,, i i i im Broj zadr`anih faktora mo`emo odrediti a riori ili osmatranjem matrice reziduala

47 S ( BB ~~ ' + Ψ ) koja je dobijena kao rezultat aroksimacije uzora~ke kovarijacione matrice sa rvih m faktora Broj faktora koje smo uklju~ili u aroksimaciju ove}avamo sve dok ne rocenimo da su elementi reziduala dovoljno mali Primer 54: Na osnovu uzorka iz -dimenzione oulacije (5) dobijena je uzora~ka korelaciona matrica R Karakteristi~ni vektori i koreni matrice R su dati u tabeli: rvi Karakteristi~ni vektori ~ α J drugi tre}i ~etvrti eti Karakteristi~ni koreni ~ λ J Kori{}enjem metode glavnih komonenti oceniti model faktorske analize Potrebno je rvo da odredimo broj glavnih komonenti koje }emo da zadr`imo u analizi Kada se koristi korelaciona matrica uobi~ajen kriterijum je da se zadr`e one glavne komonente kod kojih je varijansa (karakteristi~ni koren) ve}a od jedinice Ovaj kriterijum se naziva "kriterijum jedini~nog korena - Kaiser-ov kriterijum" Prema ovom kriterijumu }emo zadr`ati rve dve glavne komonente jer je Oni vuku ~ ~ λ 5835 i λ

48 ~ ~ λ + λ tj 86% uzora~ke varijanse Sada je otrebno da uoredimo korelacionu matricu na osnovu modela faktorske analize sa dva zajedni~ka faktora ~~ BB ' +Ψ sa uzora~kom korelacionom matricom R, i ako je dobijena razlika zanemariva, konstatujemo da ova dva zajedni~ka faktora use{no rerodukuju korelacionu strukturu et originalnih romenljivih Naomena: Za ortogonalni model va`i da je Cov(, F) Cor(, F) Daklem, treba da odredimo ~~ ' ~ BB +Ψ [ λα λα ] B ~ ~ ~ ~ ~ ~ B ( ) ( 0 045) ( ) Da bi odredili ~ Ψ otrebno je da odredimo komunalitet B B h B + B i ~ Ψ i h i a je

49 ~~ BB ' + Ψ Na osnovu ore enja ove matrice sa matricom R mo`emo zaklju~iti da zajedni~ki faktori relativno use{no rerodukuju korelacionu strukturu originalnih romenljivih Kvalitet aroksimacije smo tako e mogli sagledati i na osnovu matrice reziduala: R ( BB ~~ ' + Ψ) Metoda glavnih faktora

50 Ako analizu zasnivamo na korelacionoj matrici, nju razla`emo rema faktorskom modelu gde su dijagonalni elementi ρ BB' + Ψ h + Ψ, i,,, ρ ii i i Zajedni~ki faktori obja{njavaju vandijagonalne elemente matrice ρ i deo dijagonalnih elemenata h i Zato formiramo novu matricu h ρ Ψ BB' ρ ρ ρ ρ h ρ ρ h koja redstavlja korelacionu matricu zajedni~kih faktora i naziva se redukovana korelaciona matrica Do ocene korelacione matrice zajedni~kih faktora dolazimo na osnovu razlike ocenjene korelacione matrice i matrice secifi~nih varijansi Kako je Ψ i h i to je otrebno oceniti komunalitet re nego {to se rimeni metod glavnih faktora za ocenu modela faktorske metode Postoje dve osnovne grue metoda za ocenjivanje komunaliteta: Za ocenu i-tog komunaliteta uzima se maksimalna vrednost koeficijenta korelacije i-te romenljive i ma koje od reostalih - romenljivih Asolutna vrednost tog koeficijenta korelacije zamenjuje zatim i-tu jedinicu na glavnoj dijagonali korelacione matrice (dobra metoda za veliko ) Koristi se celokuna korelaciona matrica i ocena za h i je kvadrat vi{estrukog koeficijenta korelacije romenljive i i svih reostalih - romenljivih Ova metoda daje donju granicu ocene komunaliteta i bazira se na matrici R -, tako da je ocena komunaliteta ~ ~ hi Ψ i, i,,, ii r gde je r ii i-ti dijagonalni element matrice R - Nakon ocene komunaliteta i formiranja redukovane korelacione matrice vr{i se izbor broja faktora istim ostucima kao kod metode glavnih komonenti Potom se odre uju karakteristi~ni vektori redukovane korelacione matrice koji odgovaraju rvim m ozitivnim karakteristi~nim korenima te matrice

51 Prema tome, ocena matrice faktorskih otere}enja je ~ ~ ~ ~ ~ ~ [ ] B * λ * α * λ * α * λ * * mαm Linearni statisti~ki modeli gde su * * ( λ α ) ~, ~,,,, j j j m arovi karakteristi~nih korena i ridru`enih karakteristi~nih vektora redukovane korelacione matrice Ocena secifi~ne varijanse je m ~ * ~ * β, i,,, Ψ i j gde su ~ * β ij ocenjena faktorska otere}enja ij Na osnovu ovako ocenjene secifi~ne varijanse mo`emo onovo oceniti komunalitete m ~ * ~ * hi β ij, i,,, j a zatim ih u narednoj iteraciji koristiti za formiranje redukovane korelacione matrice i odre ivanje njenih karakteristi~nih vektora Ovaj iterativni roces ocenjivanja modela faktorske analize nastavljamo do momenta kada romene u sukcesivnim ocenama komunaliteta ne budu zanemarive Primer 55: Neka je oznata kovarijaciona matrica Σ vektora (,, 3, 4 ) Σ i neka se znaju faktorska otere}enja za rvi faktor F a 4, a 7, a i a 3 4 kao i dorinos secifi~nog faktora ukunoj varijansi - 5 -

52 ρ, ρ 4, ρ i ρ Izra~unati: a) Faktorska otere}enja za faktor F ako se retostavi da je model sa dva faktora i datim uticajem secifi~nog faktora u otunosti sosoban da objasni kovarijacionu matricu b) Proorcije varijabiliteta varijabli,, 3 i 4 obja{njene faktorima F i F c) Promene u rerezentovanju kovarijacione matrice vektora, ako se inicijalno ocenjeni faktori rotiraju matricom G za koju va`i da je G G - Skicirati izgled rotacije od 30 i romene ozicije faktorskih otere}enja Re{enje: a) h σ ρ, h β + β a + a i ii i i i i i i h 7 h 53 h 37 h 65 a a 4 a 36 a 64 a a a 6 a Faktorska otere}enja za faktor F : ( 6 8) F a a a a 3 4 b) Faktorima F i F je obja{njeno: za varijabiliteta, za 0998 varijabiliteta, za varijabiliteta, za varijabiliteta c) Ako se inicijalno ocenjeni faktori rotiraju ortogonalnom matricom G za koju va`i da je G G -, kovarijaciona matrica se ne}e romeniti Rotacija za 30 : cos30 sin 30 M sin 30 cos

53 ~ ~ Γ BM Linearni statisti~ki modeli 4 ~ 7 B, ~ 7 Γ Rotacijom za 30 se dobija matrica ~ Γ

54 6 KLASER ANALIZA Primer 6: U tabeli su dati odaci o roizvodnji belog i crnog vina za et roizvo a~a (u hiljadama litara): E redni broj roizvo a~ belo vino crno vino NAVIP 5 4 SMEDEREVKA KRAJINA VINO KOSOVO VINO 0 9 Izra~unati asolutno i kvadratno odstojanje izme u roizvo a~a { NAVIP, SMEDEREVKA, VINO ZUPA, KRAJINA VINO, KOSOVO VINO} {,, 3, 4, 5}, 5 ( ) ( ), E e e e e e N belo vino crno vino asolutno odstojanje: d x x, k, ij ik jk k d

55 i, j : d x x + x x i, j 3: d x x + x x d d d d d 0 i, j 3: d x x + x x d d d d d D kvadratno euklidsko odstojanje: ( ) ( ) ( 5 ) ( 4 4) ( 5 4) ( 4 3) ( 5 7) ( 4 6) d x x + x x + d d

56 Primer 6: D Na osnovu odataka iz rethodnog rimera formirati hijerarhijsku klasifikaciju kori{}enjem metode ojedina~nog ovezivanja (single linkage) a zatim nacrtati odgovaraju}i dendogram NAVIP SMEDEREVKA 3 VINO ZUPA 4 KRAJINA VINO 5 KOSOVO VINO D ( ) Prvo se ovezuju ona dva elementa koja imaju najmanje odstojanje min dij d 3 Zna~i, NAVIP i 3 ~ine jedan klaster Sada rimenjujemo algoritam klasifikovanja D( e, e ) min d i j sl U NAVIP U VINO ZUPA SMEDEREVKA KRAJINA VINO KOSOVO VINO D ( ) mind ij 5 Klasteru NAVIP U se ridru`uje klaster SMEDEREVKA U 3 U 4 KRAJINA VINO 5 KOSOVO VINO D ( ) Klasteru U 3 U se ridru`uje klaster 4 KRAJINA VINO

57 U 3 U U 4 5 KOSOVO VINO Dendogram: odstojanje klasteri D ( h) Primer 63: Neka su dati odaci o indeksu rezultata i snage sedam desetobojaca: takmi~ar rang snage rang rezultata A 0 8 B V 5 G 4 D 3 E 8 9 Z

58 K-mean algoritmom odeliti sku desetobojaca na dve grue sa o~etnim re{enjima za rvi centroid A, a za drugi centroid D i izra~unati me usobno odstojanje kona~no formiranih klasa A ( 0, 8), B (, 3) ( ) ( ) 0 0 ( ) ( ) 0 0 ( 3 ) ( 3 ) 0 0 ( 4 ) ( 4 ) 0 0 ( 5 ) ( 5 ) d e, A 4 d e, B e B' d e, A d e, B e B' d e, A d e, B 3 e B' d e, A 3 d e, B e A' d e, A 3 d e, B 0 e A' A' (8 67, 8), B' ( 5, 3 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) d e, A' 67 d e, B' 5 e B'' d e, A' 9 67 d e, B' 5 e B'' d e, A' 0 67 d e, B' 5 e B'' d e, A' 67 d e, B' 5 e A'' d e, A' 67 d e, B' 9 5 e A'' Kona~no re{enje: A'' { A, E, Z} B'' { B, V, G, D} Me usobno odstojanje klasa: d I, II

59 7 RE[ENI ZADACI Linearni statisti~ki modeli Zadatak Neka je data kovarijaciona matrica 3 4 Σ 3 0 i neka su oznata dva korena jedna~ine Σ λi 0 λ 9 λ 9 i a) Odrediti varijabilitet rve glavne komonente b) Odrediti analiti~ki oblik druge glavne komonente c) Koliko treba uzeti glavnih komonenata da bi bilo obuhva}eno barem 70% ukunog varijabiliteta vektora? a) tr( Σ) tr( Λ) λ + λ + λ λ λ Varijabilitet rve glavne komonente je max λ i 8 b) ΣP 3 4 λ P

60 Dobili smo tri jedna~ine sa tri neoznate ali su rve dve redudantne Za P i P odgovara bilo koje re{enje, nr P i P, Iz tre}e jedna~ine dobijamo da je P 3 0 Vektor ( 0) zadovoljava sistem jedna~ina ali ne i uslov normiranosti karakteristi~nih vektora Da bi se to ostiglo, re{enja se dele sa korenom zbira kvadrata, tj sa a je kona~no P 0 c) λ λ λ3 0 5, 0 5, 0 5, tr( Σ) tr( Λ) 36 tr( Λ) tr( Λ) tr( Λ) V ( P ) < V ( P ) + V ( P ) > Odavde zaklju~ujemo da treba uzeti rve dve glavne komonente da bi se obuhvatilo najmanje 70% ukunog varijabiliteta

61 Zadatak Ako su oznati varijabiliteti rve dve glavne komonente V(Y )8 i V(Y )9 i ako se zna ukuni varijabilitet vektora tr( Σ ) 36 ri ~emu su glavne komonente date sa Y Y + 4 Y a) odrediti rocenat varijabiliteta koji nosi tre}a komonenta, b) odrediti kovarijacionu matricu vektora a) ( ) V ( Y3 ) λ3 tr( λ) λ + λ tr( λ) λ λ b) λ % tr( Λ) 36 varijabiliteta λ 0 0 V ( ) Σ PΛP P 0 λ P P P + P P + P P 0 λ λ λ λ

62 Zadatak Σ 0 Neka je dat vektor i njegova kovarijaciona matrica sa karakteristi~nim vektorima ( ) 3 0 Σ P P P 3 ( ) ( 0 0 ) ( ) a) Izra~unati glavne komonente Y, Y i Y 3 i njihove varijanse b) Izra~unati kovarijansu i korelaciju rve glavne komonente Y sa varijablom a) Y P Y P 3 Y P V ( Y ) V ( ) V ( ) V ( ) ( 0 94) Cov(, ) ( ) 583 λ V ( Y ) V ( ) λ 3 V ( Y3 ) tr( Σ) ( λ + λ )

63 b) se mo`e naisati kao ( 0 0) 3 L jer je ΣP Cov(, Y ) Cov( L, P ) L Cov(, ) P λ P Stoga je L V ( ) P L ΣP L λ P Cov(, Y ) ( 0 0) Cov(, Y ) Cor(, Y ) V ( ) V ( Y ) Zadatak 4 Neka je data korelaciona matrica R 0 35 a) Pokazati da se R mo`e generisati modelom faktorske analize sa jednim faktorom tia 0 9F + ε * 0 7F + ε * 0 5F + ε *

64 ri ~emu je * µ σ V ( F ) Cov( F, ε ) 0, i,, 3 09 V ( ε) i b) Izra~unati komunalitete a) Model je AF + ε, a R se ocenjuje sa 0 9 ~ R AA + V ( ε) [ ] R 0 75 Kako je R ~ R 0 zaklju~ujemo da model generi{e R b) h ε h 08, h 0 49 i h 0 5 i i 3 Zadatak 5 Neka je data matrica odataka e 5 3 e - e 3 - e a) Podeliti sku E { e e e 3 e 4 },,, na dva skua Quick cluster algoritmom kori{}enjem euklidskog odstojanja dij ( ik jk ) dato o~etno re{enje da je k uz

65 0 { } { 3 4} 0 A e, e i B e, e Linearni statisti~ki modeli b) Izra~unati na isti na~in distancu izme u kona~no formiranih klasa a) Centroidi o~etnog re{enja: A 0 B d( e, A ) ( 5 ) + ( 3 ) d( e, B ) ( 5 ) + ( 3+ ) 6 d( e, A ) < d( e, B ) e A' 0 d( e, A ) 0 0 d( e, B ) 9 e B' 0 d( e, A ) d( e, B ) e B' 3 0 d( e, A ) d( e, B ) 5 e B' 4 { } { 3 4 } A' e i B' e, e, e a su centroidi A'( 5, 3) i B'(, ) d( e, A') 0 d( e, B') 5 e A'' d( e, A') 40 d( e, B') 0 e B'' d( e, A') > d( e, B') e B'' d( e, A') > d( e, B') e B'' Kako je A'A'' i B'B'' kona~na klasifikacija je: { } {,, } A e i B e e e 3 4 b) d( A, B) ( ) + ( ) 5 A B A B

66 8 LIERAURA Kova~i} Zlatko: "Multivarijaciona analiza"