Metoda glavnih komponent Metoda glavnih kompnent je ena najpogosteje uporabljenih multivariatnih metod. Osnoval jo je Karl Pearson (1901). Največ zaslug za nadaljni razvoj pa ima Hotelling (1933). Osnovna zamisel metode je opisati razpršenost n enot v m razsežnem prostoru (določen z m merjenimi spremenljivkami) z množico nekoreliranih spremenljivk - komponent, ki so linearne kombinacije originalnih merjenih spremenljivk. Nove spremenljivke so urejene od najpomembnejše do najmanj pomembne, kjer pomembnost pomeni, da prva glavna komponenta pojasnjuje kar največ razpršenosti osnovnih podatkov. Običajni cilj te analize je poiskati nekaj prvih komponent, ki pojasnjujejo večji del razpršenosti analiziranih podatkov. Analiza glavnih komponent omogoča povzeti podatke s čim manjšo izgubo informacij tako, da zmanjša razsežnost podatkov. Vzemimo primer: denimo, da želimo poiskati indeks ekonomske razvitosti občin, republik ali držav, če razvitost merimo z več spremenljivkami ali indikatorji ekonomske razvitosti. Take indekse je mogoče določiti z metodo glavnih komponent.
Osnovna misel metode glavnih komponent je, da želimo poiskati take linearne kombinacije opazovanih spremenljivk, da kar se da močno korelirajo z opazovanimi spremenljivkami, oziroma kar je isto, da pojasnijo kar se da veliko razpršenosti (variacije) opazovanih spremenljivk. Zato pri metodi glavnih komponent določimo uteži pri linearni kombinaciji spremenljivk, tako da je varianca te linerane kombinacije največja. Če linearno kombinacijo Y 1 opazovanih spremenljivk X i zapišemo oziroma matrično če je X matrika podatkov in a 1 vektor uteži Y 1 = a 11 X 1 + a 12 X 2 +... + a 1m X m X = Y 1 = Xa 1 x 11 x 12... x 1m x 21 x 22... x 2m...... x n1 x n2... x nm a 1 = a 11. a 1m želimo poiskati take uteži a 1, za katere bo varianca Y 1 največja var(y 1 ) = var(xa 1 ) = max Linearna kombinacija Y 1 je prva komponenta. Zato, da je problem enolično rešljiv, je potrebno podati še dodatni pogoj a 1a 1 = m a 2 1i = 1 i=1
Ko izračunamo prvo komponento z največjo varianco, poiščemo drugo komponento tako, da je nekorelirana s prvo in ima zopet največjo varianco, oziroma in Y 2 = a 21 X 1 + a 22 X 2 +... + a 2m X m = Xa 2 a 2a 2 = 1 a 2a 1 = 0 Postopek na ta način nadaljujemo in j-ta komponenta je tedaj s pogoji in a ja i = 0, Y j = Xa j a ja j = 1 i < j V prostoru dveh spremenljivk si lahko določitev glavnih komponent grafično prikažemo takole:
Kako pridemo do uteži a? Problem, ki ga je potrebno rešiti, je: var(y 1 ) = var(xa 1 ) = a 1Σa 1 = max pri pogoju, da je a 1a 1 = 1. Gre za maksimizacijo z omejitvijo, ki se ponavadi rešuje z metodo Lagrangevega multiplikatorja. V tem primeru določimo Lagrangejevo funkcijo takole t = a Σa λ(a a 1) kjer je Σ matrika varianc in kovarianc ali korelacijska matrika (če so spremenljivke standardizirane) opazovanih spremenljivk, a Σa varianca linearne kombinacije spremenljivk, ki mora biti maksimalna, λ je neznana konstanta znana pod imenom Lagrangev multiplikator in (a a 1) predstavlja omejitev. λ in a, za katere bo imela funkcija t največjo vrednost, so rešitev postavljenega problema glavnih komponent. Pomagamo si s parcialnimi odvodi t = 2Σa 2λa = 0 a oziroma (Σ λi)a = 0 Ker je (Σ λi)a = 0 in a različen od 0, mora biti matrika (Σ λi) singularna. To pomeni, da mora biti q(λ) = Σ λi = 0 q(λ) je karakteristična enačba. Poznano je, da so rešitve te enačbe lastne vrednosti λ i matrike Σ in a i pripadajoči lastni vektorji. Lastni vektor a 1, ki pripada največji lastni vrednosti λ 1, nam daje uteži za iskano prvo komponento, ki je tedaj Y 1 = Xa 1. Lastni vektorji so pravokotni med seboj. Naslednji lastni vektor, ki pripada naslednji največji lastni vrednosti, podaja uteži druge komponente itd.
Zgoraj zapisana karakteristična enačba q(λ) je polinom m-te stopnje za λ. Zato je q(λ) = m (λ i λ) i=1 Če postavimo v karakteristični enačbi λ = 0, potem je Σ = m λ i i=1 Podobno bi lahko s primerjavo koeficientov pri λ v karakteristični enačbi in zgornje enačbe dobili naslednjo enakost m i=1 a ii = slσ = m λ i i=1 To pomeni, da je vsota diagonalnih členov matrike Σ enaka vsoti lastnih vrednosti matrike Σ. Pokazati se da še več: lastne vrednosti so variance glavnih komponent. Dokažimo s pomočjo ortogonalne dekompozicije matrike X: če so lastne vrednosti λ i simetrične kovariančno-variančne matrike Σ različne med seboj, lahko matriko Σ zapišemo Σ = AΛA kjer je Λ diagonalna matrika z urejenimi lastnimi vrednostmi matrike Σ v diagonali in A ortogonalna matrika reda m s stolpci, ki so pripadajoči lastni vektorji. Elementi matrike A so torej uteži glavnih komponent, ki jo tedaj lahko zapišemo Y = XA. Variance glavnih komponent so tedaj var(y ) = A ΣA = A (AΛA )A = Λ ker je A A = I. S tem smo pokazali, da je varianca glavne komponente Y i enaka pripadajoči lastni vrednosti λ i. Delež skupne variance, ki jo pojasni j-ta glavna komponenta je potem λ j slσ
Dobljeni rezultati metode glavnih komponent so smiselni, če so variance glavnih komponent λ i pozitivna števila. Ta pa so, če je matrika Σ pozitivno definitna. Ker so lahko merjene spremenljivke v različnih merskih enotah, je njihova linearna kombinacija nesmiselna. Zato, predno računamo glavne komponente, spremenljivke standardiziramo. To pomeni, da je matrika varianc in kovarianc korelacijska matrika. Ker so v diagonali matrike Σ enice, je delež pojasnjene variance z j-to glavno komponento enak λ j /m
Ponavadi dobljene glavne komponente reskaliramo tako, da je Σ = A A ker je po drugi strani je oziroma posamezna utež Σ = A ΛA A = Λ 1/2 A a ij = a ij λi Dolžina uteži i-te komponente a i je 1, i-te reskalirane komponente a i pa λ i. Utež reskalirane i-te glavne komponente a ij je tedaj korelacija med i-to komponento in j-to spremenljivko.
Koliko komponent? V literaturi je znanih več hevrističnih pravil za določitev števila najpomembnejših komponent. Naštejmo jih nekaj: 1. izbrano število komponent naj pojasni vsaj 80 % skupne variance; 2. lastne vrednosti komponent naj bodo večje kot povprečna vrednost lastnih vrednosti; 3. odstotek pojasnjene variance zadnje vzete komponente naj bo vsaj 5; 4. število komponent določimo na osnovi grafične predstavitve lastnih vrednosti tako, da v koordinatnem sistemi nanašamo na abscisno os število komponent, na ordinatno pa ustrezne lastne vrednosti. Tam kjer se graf lomi je sugestija za število komponent. Ta diagram ponavadi imenujemo scree diagram.
Znanih je nekaj rezultatov za ocenjevanje populacijskih lastnih vrednosti in pripadajočih lastnih vektorjev, če imamo znane ocene na vzorcih. Ker ponavadi uporabljamo metodo glavnih komponent za pregledovalno analizo, teh testov ne uporabljamo. Vsi testi predpostavljajo večrazsežno normalno porazdelitev opazovanih spremenljivk. Najpogosteje uporabljen je Bartlettov test: H 0 : Σ = I kar pomeni, da so vse opazovane spremenljivke nekorelirane med seboj in v tem primeru je uporaba metode glavnih komponent nesmiselna. Bartlett je našel naslednjo statistiko za preverjanje zgornje ničelne domneve χ 2 = (n 1 (2m + 5) ) ln R 6 ki se asimptotično porazdeljuje po χ 2 porazdelitvi z m(m 1) 2 prostostnimi stopinjami, kjer je R vzorčna korelacijska matrika. S tem testom, ki je bil še razdelan, je mogoče preveriti, da je m k preostalih komponent zanemarljivih: da so njihove lastne vrednosti enake med seboj.
PRIMER: mala podjetja