Metoda glavnih komponent

Σχετικά έγγραφα
Diferencialna enačba, v kateri nastopata neznana funkcija in njen odvod v prvi potenci

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 5. december Gregor Dolinar Matematika 1

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 14. november Gregor Dolinar Matematika 1

Tretja vaja iz matematike 1

Funkcijske vrste. Matematika 2. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 2. april Gregor Dolinar Matematika 2

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 22. oktober Gregor Dolinar Matematika 1

Podobnost matrik. Matematika II (FKKT Kemijsko inženirstvo) Diagonalizacija matrik

Specifični faktorji E i bodo imeli majhne variance, če so opazovane spremenljivke blizu faktorju F.

13. Jacobijeva metoda za računanje singularnega razcepa

matrike A = [a ij ] m,n αa 11 αa 12 αa 1n αa 21 αa 22 αa 2n αa m1 αa m2 αa mn se števanje po komponentah (matriki morata biti enakih dimenzij):

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 10. december Gregor Dolinar Matematika 1

DISKRIMINANTNA ANALIZA

Reševanje sistema linearnih

Iterativno reševanje sistemov linearnih enačb. Numerične metode, sistemi linearnih enačb. Numerične metode FE, 2. december 2013

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 21. november Gregor Dolinar Matematika 1

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 12. november Gregor Dolinar Matematika 1

Kvadratne forme. Poglavje XI. 1 Definicija in osnovne lastnosti

Lastne vrednosti in lastni vektorji

KODE ZA ODKRIVANJE IN ODPRAVLJANJE NAPAK

Numerično reševanje. diferencialnih enačb II

Analiza 2 Rešitve 14. sklopa nalog

SKUPNE PORAZDELITVE VEČ SLUČAJNIH SPREMENLJIVK

Booleova algebra. Izjave in Booleove spremenljivke

DISKRETNA FOURIERJEVA TRANSFORMACIJA

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 15. oktober Gregor Dolinar Matematika 1

Osnove linearne algebre

Kotne in krožne funkcije

Splošno o interpolaciji

diferencialne enačbe - nadaljevanje

Enačba, v kateri poleg neznane funkcije neodvisnih spremenljivk ter konstant nastopajo tudi njeni odvodi, se imenuje diferencialna enačba.

Funkcije več spremenljivk

NEPARAMETRIČNI TESTI. pregledovanje tabel hi-kvadrat test. as. dr. Nino RODE

*M * Osnovna in višja raven MATEMATIKA NAVODILA ZA OCENJEVANJE. Sobota, 4. junij 2011 SPOMLADANSKI IZPITNI ROK. Državni izpitni center

Multivariatna analiza variance

Navadne diferencialne enačbe

IZPIT IZ ANALIZE II Maribor,

V tem poglavju bomo vpeljali pojem determinante matrike, spoznali bomo njene lastnosti in nekaj metod za računanje determinant.

Matematika 2. Diferencialne enačbe drugega reda

Uporabna matematika za naravoslovce

8. Posplošeni problem lastnih vrednosti

Dodatna poglavja iz linearne algebre za 1. letnik finančne matematike na FMF. Primož Moravec

Integralni račun. Nedoločeni integral in integracijske metrode. 1. Izračunaj naslednje nedoločene integrale: (a) dx. (b) x 3 +3+x 2 dx, (c) (d)

Problem lastnih vrednosti

Inverzni problem lastnih vrednosti evklidsko razdaljnih matrik

vezani ekstremi funkcij

Kontrolne karte uporabljamo za sprotno spremljanje kakovosti izdelka, ki ga izdelujemo v proizvodnem procesu.

Na pregledni skici napišite/označite ustrezne točke in paraboli. A) 12 B) 8 C) 4 D) 4 E) 8 F) 12

Problem lastnih vrednosti 1 / 20

Matematika. Funkcije in enačbe

1.3 Vsota diskretnih slučajnih spremenljivk

Delovna točka in napajalna vezja bipolarnih tranzistorjev

Definicija. definiramo skalarni produkt. x i y i. in razdaljo. d(x, y) = x y = < x y, x y > = n (x i y i ) 2. i=1. i=1

Matematika 1. Gregor Dolinar. 2. januar Fakulteta za elektrotehniko Univerza v Ljubljani. Gregor Dolinar Matematika 1

Gimnazija Krˇsko. vektorji - naloge

Tema 1 Osnove navadnih diferencialnih enačb (NDE)

Poliedri Ines Pogačar 27. oktober 2009

Matematika I (VS) Univerza v Ljubljani, FE. Melita Hajdinjak 2013/14. Pregled elementarnih funkcij. Potenčna funkcija. Korenska funkcija.

Linearna algebra. Bojan Orel Fakulteta za računalništvo in informatiko

Odvode odvisnih spremenljivk po neodvisni spremenljivki bomo označevali s piko: Sistem navadnih diferencialnih enačb prvega reda ima obliko:

11.5 Metoda karakteristik za hiperbolične PDE

Elementi spektralne teorije matrica

MATEMATIKA 1 UNIVERZITETNI ŠTUDIJSKI PROGRAM BIOKEMIJA 1. LETNIK

8. MULTIVARIATNE METODE 8.1. Uvod Zakaj jih uporabljati

3.1 Reševanje nelinearnih sistemov

INŽENIRSKA MATEMATIKA I

Osnove matematične analize 2016/17

1. Definicijsko območje, zaloga vrednosti. 2. Naraščanje in padanje, ekstremi. 3. Ukrivljenost. 4. Trend na robu definicijskega območja

Matrike. Poglavje II. Matrika je pravokotna tabela realnih števil. Na primer: , , , 0 1

1 Fibonaccijeva stevila

Linearne preslikave. Poglavje VII. 1 Definicija linearne preslikave in osnovne lastnosti

Matematično modeliranje 3. poglavje Dinamično modeliranje: diferencialne enačbe, sistemi diferencialnih enačb

Matematično modeliranje. Simpleksna metoda.

REˇSITVE. Naloga a. b. c. d Skupaj. FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost 2. kolokvij 23.

VEKTORJI. Operacije z vektorji

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

PONOVITEV SNOVI ZA 4. TEST

1. Trikotniki hitrosti

8. Diskretni LTI sistemi

22. Kdaj sta dva vektorja vzporedna? FGG geodezija UNI Matematika I, 2005/ Kdaj so vektorji a 1, a 2,..., a n linearno neodvisni?

Projekcije in zmanjšanje dimenzionalnosti podatkov

Univerza v Ljubljani Fakulteta za računalništvo in informatiko MATEMATIKA. Polona Oblak

Kanonična oblika linearnega programa. Simpleksna metoda. Bazne rešitve kanoničnega linearnega programa.

UNIVERZA V MARIBORU FAKULTETA ZA KEMIJO IN KEMIJSKO TEHNOLOGIJO MATEMATIKA II

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

IZVODI ZADACI (I deo)

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SANDRA BOLTA LASTNE VREDNOSTI GRAFA DIPLOMSKO DELO

Zbirka rešenih izpitnih nalog iz numeričnih metod

Oznake in osnovne definicije

Osnove statistike. Drago Bokal Oddelek za matematiko in računalništvo Fakulteta za naravoslovje in matematiko Univerza v Mariboru. 1.

Navadne diferencialne enačbe

Osnove elektrotehnike uvod

Poglavje 2. Sistemi linearnih enačb

primer reševanja volumskega mehanskega problema z MKE

FAKULTETA ZA STROJNIŠTVO Matematika 4 Pisni izpit 22. junij Navodila

Afina in projektivna geometrija

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

UNIVERZA V MARIBORU FAKULTETA ZA KEMIJO IN KEMIJSKO TEHNOLOGIJO MATEMATIKA III

POROČILO 3.VAJA DOLOČANJE REZULTANTE SIL

Funkcije dveh in več spremenljivk

1. VAJA IZ TRDNOSTI. (linearna algebra - ponovitev, Kroneckerjev δ i j, permutacijski simbol e i jk )

Transcript:

Metoda glavnih komponent Metoda glavnih kompnent je ena najpogosteje uporabljenih multivariatnih metod. Osnoval jo je Karl Pearson (1901). Največ zaslug za nadaljni razvoj pa ima Hotelling (1933). Osnovna zamisel metode je opisati razpršenost n enot v m razsežnem prostoru (določen z m merjenimi spremenljivkami) z množico nekoreliranih spremenljivk - komponent, ki so linearne kombinacije originalnih merjenih spremenljivk. Nove spremenljivke so urejene od najpomembnejše do najmanj pomembne, kjer pomembnost pomeni, da prva glavna komponenta pojasnjuje kar največ razpršenosti osnovnih podatkov. Običajni cilj te analize je poiskati nekaj prvih komponent, ki pojasnjujejo večji del razpršenosti analiziranih podatkov. Analiza glavnih komponent omogoča povzeti podatke s čim manjšo izgubo informacij tako, da zmanjša razsežnost podatkov. Vzemimo primer: denimo, da želimo poiskati indeks ekonomske razvitosti občin, republik ali držav, če razvitost merimo z več spremenljivkami ali indikatorji ekonomske razvitosti. Take indekse je mogoče določiti z metodo glavnih komponent.

Osnovna misel metode glavnih komponent je, da želimo poiskati take linearne kombinacije opazovanih spremenljivk, da kar se da močno korelirajo z opazovanimi spremenljivkami, oziroma kar je isto, da pojasnijo kar se da veliko razpršenosti (variacije) opazovanih spremenljivk. Zato pri metodi glavnih komponent določimo uteži pri linearni kombinaciji spremenljivk, tako da je varianca te linerane kombinacije največja. Če linearno kombinacijo Y 1 opazovanih spremenljivk X i zapišemo oziroma matrično če je X matrika podatkov in a 1 vektor uteži Y 1 = a 11 X 1 + a 12 X 2 +... + a 1m X m X = Y 1 = Xa 1 x 11 x 12... x 1m x 21 x 22... x 2m...... x n1 x n2... x nm a 1 = a 11. a 1m želimo poiskati take uteži a 1, za katere bo varianca Y 1 največja var(y 1 ) = var(xa 1 ) = max Linearna kombinacija Y 1 je prva komponenta. Zato, da je problem enolično rešljiv, je potrebno podati še dodatni pogoj a 1a 1 = m a 2 1i = 1 i=1

Ko izračunamo prvo komponento z največjo varianco, poiščemo drugo komponento tako, da je nekorelirana s prvo in ima zopet največjo varianco, oziroma in Y 2 = a 21 X 1 + a 22 X 2 +... + a 2m X m = Xa 2 a 2a 2 = 1 a 2a 1 = 0 Postopek na ta način nadaljujemo in j-ta komponenta je tedaj s pogoji in a ja i = 0, Y j = Xa j a ja j = 1 i < j V prostoru dveh spremenljivk si lahko določitev glavnih komponent grafično prikažemo takole:

Kako pridemo do uteži a? Problem, ki ga je potrebno rešiti, je: var(y 1 ) = var(xa 1 ) = a 1Σa 1 = max pri pogoju, da je a 1a 1 = 1. Gre za maksimizacijo z omejitvijo, ki se ponavadi rešuje z metodo Lagrangevega multiplikatorja. V tem primeru določimo Lagrangejevo funkcijo takole t = a Σa λ(a a 1) kjer je Σ matrika varianc in kovarianc ali korelacijska matrika (če so spremenljivke standardizirane) opazovanih spremenljivk, a Σa varianca linearne kombinacije spremenljivk, ki mora biti maksimalna, λ je neznana konstanta znana pod imenom Lagrangev multiplikator in (a a 1) predstavlja omejitev. λ in a, za katere bo imela funkcija t največjo vrednost, so rešitev postavljenega problema glavnih komponent. Pomagamo si s parcialnimi odvodi t = 2Σa 2λa = 0 a oziroma (Σ λi)a = 0 Ker je (Σ λi)a = 0 in a različen od 0, mora biti matrika (Σ λi) singularna. To pomeni, da mora biti q(λ) = Σ λi = 0 q(λ) je karakteristična enačba. Poznano je, da so rešitve te enačbe lastne vrednosti λ i matrike Σ in a i pripadajoči lastni vektorji. Lastni vektor a 1, ki pripada največji lastni vrednosti λ 1, nam daje uteži za iskano prvo komponento, ki je tedaj Y 1 = Xa 1. Lastni vektorji so pravokotni med seboj. Naslednji lastni vektor, ki pripada naslednji največji lastni vrednosti, podaja uteži druge komponente itd.

Zgoraj zapisana karakteristična enačba q(λ) je polinom m-te stopnje za λ. Zato je q(λ) = m (λ i λ) i=1 Če postavimo v karakteristični enačbi λ = 0, potem je Σ = m λ i i=1 Podobno bi lahko s primerjavo koeficientov pri λ v karakteristični enačbi in zgornje enačbe dobili naslednjo enakost m i=1 a ii = slσ = m λ i i=1 To pomeni, da je vsota diagonalnih členov matrike Σ enaka vsoti lastnih vrednosti matrike Σ. Pokazati se da še več: lastne vrednosti so variance glavnih komponent. Dokažimo s pomočjo ortogonalne dekompozicije matrike X: če so lastne vrednosti λ i simetrične kovariančno-variančne matrike Σ različne med seboj, lahko matriko Σ zapišemo Σ = AΛA kjer je Λ diagonalna matrika z urejenimi lastnimi vrednostmi matrike Σ v diagonali in A ortogonalna matrika reda m s stolpci, ki so pripadajoči lastni vektorji. Elementi matrike A so torej uteži glavnih komponent, ki jo tedaj lahko zapišemo Y = XA. Variance glavnih komponent so tedaj var(y ) = A ΣA = A (AΛA )A = Λ ker je A A = I. S tem smo pokazali, da je varianca glavne komponente Y i enaka pripadajoči lastni vrednosti λ i. Delež skupne variance, ki jo pojasni j-ta glavna komponenta je potem λ j slσ

Dobljeni rezultati metode glavnih komponent so smiselni, če so variance glavnih komponent λ i pozitivna števila. Ta pa so, če je matrika Σ pozitivno definitna. Ker so lahko merjene spremenljivke v različnih merskih enotah, je njihova linearna kombinacija nesmiselna. Zato, predno računamo glavne komponente, spremenljivke standardiziramo. To pomeni, da je matrika varianc in kovarianc korelacijska matrika. Ker so v diagonali matrike Σ enice, je delež pojasnjene variance z j-to glavno komponento enak λ j /m

Ponavadi dobljene glavne komponente reskaliramo tako, da je Σ = A A ker je po drugi strani je oziroma posamezna utež Σ = A ΛA A = Λ 1/2 A a ij = a ij λi Dolžina uteži i-te komponente a i je 1, i-te reskalirane komponente a i pa λ i. Utež reskalirane i-te glavne komponente a ij je tedaj korelacija med i-to komponento in j-to spremenljivko.

Koliko komponent? V literaturi je znanih več hevrističnih pravil za določitev števila najpomembnejših komponent. Naštejmo jih nekaj: 1. izbrano število komponent naj pojasni vsaj 80 % skupne variance; 2. lastne vrednosti komponent naj bodo večje kot povprečna vrednost lastnih vrednosti; 3. odstotek pojasnjene variance zadnje vzete komponente naj bo vsaj 5; 4. število komponent določimo na osnovi grafične predstavitve lastnih vrednosti tako, da v koordinatnem sistemi nanašamo na abscisno os število komponent, na ordinatno pa ustrezne lastne vrednosti. Tam kjer se graf lomi je sugestija za število komponent. Ta diagram ponavadi imenujemo scree diagram.

Znanih je nekaj rezultatov za ocenjevanje populacijskih lastnih vrednosti in pripadajočih lastnih vektorjev, če imamo znane ocene na vzorcih. Ker ponavadi uporabljamo metodo glavnih komponent za pregledovalno analizo, teh testov ne uporabljamo. Vsi testi predpostavljajo večrazsežno normalno porazdelitev opazovanih spremenljivk. Najpogosteje uporabljen je Bartlettov test: H 0 : Σ = I kar pomeni, da so vse opazovane spremenljivke nekorelirane med seboj in v tem primeru je uporaba metode glavnih komponent nesmiselna. Bartlett je našel naslednjo statistiko za preverjanje zgornje ničelne domneve χ 2 = (n 1 (2m + 5) ) ln R 6 ki se asimptotično porazdeljuje po χ 2 porazdelitvi z m(m 1) 2 prostostnimi stopinjami, kjer je R vzorčna korelacijska matrika. S tem testom, ki je bil še razdelan, je mogoče preveriti, da je m k preostalih komponent zanemarljivih: da so njihove lastne vrednosti enake med seboj.

PRIMER: mala podjetja