Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta FAKULE ELEKROEHNIKE I RAČUNARSVA Uvod u multvarjatu statstku Profdrs N Boguovć Profdrs B Dalbelo Bašć OKRIVANJE ZNANJA U SKUPOVIMA PODAAKA Multvarjata aalza «he objetve of the data aalyss s to etrat relevat formato otaed the data whh a the be used to solve a gve roblem» Eloratory data aalyss, EDA vs Hyothess estg Data mg Postoje razlčte klasfkaje multvarjath metoda Uvod u multvarjatu aalzu Metoda glavh komoeata 3 Gruraje odataka 4 Dskrmata aalza Mjere skale: omala, uređaja, tervala, raoala (zadje dvje če metrčku skalu) Broj varjabl: za varjable mjeree a zadje tr skale broj varjabl je odgovarajuć Za omale varjable koje maju vrjedost defra se jeda «dummy» varjabla, (r varjabla sol, varjabla orma vrjedost: 0 mušk žesk) Za omalu varjablu s 3 vrjedost otrebo je formulrat tr varjable blješke za redavaja akgod 003/04 Neka je dao: etteta, varjabl Pretostavmo odjelu tog skua u dvje grue Profdrs Bojaa Dalbelo Bašć /39 Profdrs Bojaa Dalbelo Bašć /39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta DEPENDANCE MEHODS rsutost l odsutost relaje zmeđu dva skua (zavse ezavse) varjable INERDEPENDANCE MEHODS - ako je emoguće uarjed odredt sku varjabl koje su zavse sku varjabl koje su ezavse ego je otrebo odredt kako zašto su varjable međusobo u relaj DEPENDANCE MEHODS Deedae methods adalje djelmo rema: Broju ezavsh varjabl (jeda l vše) Broju zavsh varjabl (jeda l vše) Vrst mjere skale zavse varjable Vrst mjere skale ezavse varjable Jeda zavsa varjabla jeda ezavsa varjabla (uvarjata statstka, za razlku od multvarjate) Jeda zavsa vše ezavsh varjabl Prmjer: stručjak za marketg žel utvrdt vezu zmeđu amjere kuje (NK) ekog rozvoda za ezavsh varjabl: rhoda(p), obrazovaja(o), gode(g), ača žvota(nž) td Lear model: NKβ 0 + β P + β O+ β 3 G +β 4 NŽ + ε Profdrs Bojaa Dalbelo Bašć 3/39 REGRESIJA Jeda zavsa vše ezavsh varjabl sve mjeree a metrčkoj skal ANOVA (Aalza varjae) Nezavsa varjabla mjerea a omaloj skal (rmjer: umjesto da se bljež toč rhod, rhod se kategorzra kao vsok, sredj, zak) ANOVA je tehka za rojeu arametara learog modela kada su ezavse varjable omale ANOVA je oseb slučaj regresje (ezavse varjable su kategorzrae) U ajjedostavjem slučaju ANOVA se svod a t-test ako omala varjabla orma dvje vrjedost (Prmjer: Da l sol utječe a razu kolesterola u krv? Da l rofesja utječe a razu kolesterola u krv? Da l sol rofesja zajedo utječu a razu kolesterola u krv?) DISKRIMINANNA ANALIZA Pretostavmo da amjeru kuje mjermo a omaloj skal (ku o koj to su) dok su ezavse varjable mjeree a metrčkoj skal Želmo odredt da l se dvje grue (ku o koj to su) začajo razlkuju s obzrom a ezavse varjable, ako da, mogu l ezavse varjable bt uotrebljee za redvđaje l klasfkaju otejalh kuaa u jedu od dvje grue - grue DA je oseba slučaj multle regresje LOGISIČKA REGRESIJA Pretostavka dskrmate aalze je da oda dolaze z multvarjate ormale dstrbuje Logstčka regresja se rmjejuje kada su te retostavke arušee kada je zavsa varjabla kombaja omale metrčke varjable Profdrs Bojaa Dalbelo Bašć 4/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Vše od jede zavse jeda l vše ezavsh varjabl KANONSKA KORELACIJSKA ANALIZA Je tehka za aalzu relaje zmeđu dvju skuova varjabl U ašem rmjeru ako as kao zavsa varjable uz amjeru kuje rehrambeog rozvoda još teresra mšljeje kua o okusu rozvoda (Multla regresja je oseba slučaj CCA) MDA - DISKRIMINANNA ANALIZA S VIŠE GRUPA Pretostavmo da otejale kue odjelmo u tr grue Kako se te tr grue razlkuju u odosu a ezavse varjable? Kako razvt metodu dskrmaje za buduće kue? INERDEPENDANCE MEHODS Nema ekslto zadah skuova zavsh ezavsh varjabl Potrebo je detfrat kako zašto su varjable korelrae jeda s drugom MEODA GLAVNIH KOMPONENAA - metoda za redukju odataka Redura velk broj varjabl a mal broj komozth varjabl FAKORSKA ANALIZA Pokušava detfrat mal broj faktora koj su odgovor za korelaju zmeđu velkog broja varjabl FA tehka redukje odataka Idetfra grue varjabl tako da su korelaje varjabl uutar grue veće ego oe zmeđu grua (Prmjer školsk sholog okušava aalzrat korelaju zmeđu ojea razlčth kolegja redmeta za učeke u škol) GRUPIRANJE PODAAKA ehka gruraja elemeata (objekata, etteta, oservaja) tako da su elemet uutar jedog klastera slč u odosu a oblježja (varjable) koje h osuju Naročto teresata u bo zaostma za razvjaje taksoomja Prmjer: gruraje rehrambeh artkala rema vrjedostma utrjeata (vtamma, meralma, ugljkohdratma ), gruraje otejalh kuaa rema kuovm avkama Profdrs Bojaa Dalbelo Bašć 5/39 Profdrs Bojaa Dalbelo Bašć 6/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta MEODA GLAVNIH KOMPONENAA l Karhue-Loève trasformaja l Hotellgova trasformaja (egl Pral Comoet Aalyss - PCA) - Karl Pearso 90 gode rv osao PCA - Hotellg 933 dao os zračua glavh komoet - Prmjea za vše varjabl tek s razvojem račuala Jeda od ajjedostavjh metoda multvarjate statstke Clj je ačt ov koordat sustav s majm brojem dmezja od zvorog koj aglašava glave uzorke varjaja odataka Prmjea: redukja dmezoalost odataka (redura broj zvorh varjabl a mal broj deksa koj su leara kombaja zvorh varjabl koj se zovu glave komoete) terretaja odataka (glave komoete objašjavaju varjablost odataka a ajkozj ač, a taj ač okazuje eke skrvee ovezaost, međuodose odataka Poda se rkazuju a ač koj je uobčaje, al sadrž mogo bth formaja o skuu zvorh odataka) Clj metode glavh komoeeta:,, varjabl (svojstava), mjereh a objekata (sva mjereja se rkazuju matrom), treba ać Y, Y, Y tako da su ekorelra (odsustvo korelaje deks odražavaju razlčte «dmezje» odataka) da vrjed Var(Y ) Var(Y ) Var(Y ) Y se azvaju glave komoete - varjae veće Y zaemarvo male -> varjablost skua odataka se može osat s malm brojem glavh komoeata Y - PCA rovedva samo ako su zvore varjable korelrae ajbolje ako su jako korelrae - tada ma redudaje u zvorm varjablama koje mjere stu stvar, a rmjer 0-30 varjabl redstav se sa -3 glave komoete Profdrs Bojaa Dalbelo Bašć 7/39 Profdrs Bojaa Dalbelo Bašć 8/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Osove defje: Neka je slučaj vektor, elemet od su slučaje varjable L ada je očekvaje slučajog vektora vektor defra sa: E ( ) E E L E ( ) ( ) ( ), gdje je E ( ) očekvaje slučaje varjable, ozačmo ga s Varjaa slučajog vektora je Var [ ] ( ) E ( E( )) Za, j,, K defrajmo reale brojeve: Za j j σ [( E( ))( E( ))] E( ) E( ) E( ) E, j zovemo kovarjaa slučajh varjabl j j j, j često je ozačavamo s Cov (, j ) Smetrču matru Σ defrau a sljedeć ač: j GLAVNE KOMPONENE Neka je (,, ) K R E( ) slučaj vektor s kovarjaoom matrom Σ eka su jee svojstvee vrjedost dae s λ λ K λ 0 Pogledajmo leare kombaje : Y l l + l + K + l Y l l + l + K + l Y l l + l + K+ l h h h M M h Y l l + l + K+ l Glave komoete su ekorelrae leare kombaje varjae su ajveće moguće h Y, Y, K, Y čje Leare kombaje Y Y h, k su ekorelrae ako vrjed Cov ( Y, Y ) k h 0 Prva glava komoeta je lara kombaja s ajvećom varjaom, odoso oa koja maksmzra zraz ( ) Y Var, uz uvjet da vrjed l l Σ azvamo kovarjaoa matra slučajog vektora Kada je očekvaje slučajog vektora ula (ul-vektor) tada je kovarjaoa matra jedaka autokorelaooj matr slučajog vektora koja je defraa sa: Profdrs Bojaa Dalbelo Bašć 9/39 Profdrs Bojaa Dalbelo Bašć 0/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Glave komoete deframo a sljedeć ač: Prva glava komoeta je leara kombaja Y l koja maksmzra zraz ( l ) Var, uz uvjet l l Druga glava komoeta je leara kombaja Y l koja maksmzra zraz ( l ) Var, uz uvjet l l Cov( l l ) 0, h-ta glava komoeta je leara kombaja Y h lh koja maksmzra zraz ( l ) Var h, uz uvjet l Cov( l, l ) 0 l h h h k za h -ta glava komoeta je leara kombaja Y l koja maksmzra zraz ( l ) Var, uz uvjet l Cov( l, l ) 0 l k < k < k za Objašjeje metode glavh komoeata Varjae kovarjae learh kombaja Y (tj glavh komoet) dae su formulama: Var ( Yh ) lh Σlh λh za h,, K, ( Y, Y ) l Σl 0 Cov za h, k,, K, h k h k Kovarjaoa matra odataka je reala smetrča tj vrjed te je oztvo defta, odoso Σ Σ, Σ > 0, Kovarjaoa matra je dmezje ma eegatvh svojstveh vrjedost Svaka se smetrča matra može asat kao rodukt svojh svojstveh vektora svojstveh vrjedost a sljedeć ač: Σ λ e e + λ e e + K+ λ e e, odoso Σ Q ΛQ, gdje je Q matra svojstveh vektora matre Σ, Λ je djagoala matra koja a djagoal ma svojstvee vrjedost matre Σ Svojstvee vrjedost ( λ ) defrae kao ul-točke jedadžbe ( I Σ) 0 det λ, a svojstve vektor (e ) se dobvaju z jedadžbe Σ e λe Profdrs Bojaa Dalbelo Bašć /39 Profdrs Bojaa Dalbelo Bašć /39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta vrdja Neka je B oztvo defta matra sa svojstvem vrjedostma λ λ K λ 0 radm ormalzram svojstvem vektorma e, e, K, e ada je e, Kek B ma λ 0 B ma λ + k (ostže se za e ) vrjed također (ostže se za e k+, k,, K, ) vrdja Neka je Σ kovarjaoa matra slučajog vektora ( ),, K eka su da arov svojstvea vrjedost - svojstve vektor ( e ), ( λ, e ),,(, ) λ K kovarjaoe matre Σ, gdje je λ λ K λ 0, λ e (Ako su eke svojstvee vrjedost λ h jedake, tada zbor radog svojstveog vektora e h Y h je jedstve) Ozačmo koordate vektora e h ovako: e [ e e, Ke ] vrjed h ada je h-ta glava komoeta daa sa h, h h h h Y e e + e + K+ e za h,, K, Var h h ( Yh ) eh Σeh λh za h,, K, h ( Y, Y ) e Σe 0 Cov za h k k h h k vrdja 3 Ukua varjaa je jedaka tr ( Σ) σ + σ + K + σ Var( j ) j + λ + + λ Var Y h h λ K ( ) Prmjer Pretostavmo da slučaje varjable,, 3 maju kovarjaou matru: 0 5 0 0 0 Može se rovjert da tada arov svojstvea vrjedost-svojstve vektor zgledaju ovako: λ e [ 0383, 094,0] 583 00 λ e [ 0,0, ] 3 07 λ e [ 094,0383,0] 3 Glave komoete su tada : Y e 383 0 94 Y Y e 3 0 3 e3 94 + 0 383 0 Varjaa rve glave komoete je ( Y ) Var( 0383 094 ) 5 83 λ Var, kovarjaa zmeđu rve druge glave komoete je Sada račuamo trag: ( Y Y ) Cov( 0383 094, ) 0 Cov, 3 σ + σ + σ + 5 + λ + λ + λ 583 + 00 07 8 3 3 + 583 + 8 Prve dvje komoete sudjeluju s udjelom ( ) 0 98 od ukue varjae U ovom slučaju je jaso da b komoete Y, Y mogle dobro zamjet tr orgale varjable s vrlo malo gubtaka formaje Profdrs Bojaa Dalbelo Bašć 3/39 Profdrs Bojaa Dalbelo Bašć 4/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Profdrs Bojaa Dalbelo Bašć 5/39 Geometrjska terretaja metode glavh komoeata Želmo l vdjet što b ble glave komoete ekog kokretog skua uzoraka moramo defrat eke ojmove deskrtve statstke Neka je { } K,, ek sku uzoraka, tada je sredja vrjedost daa s Uzor mogu bt všedmezoal oda, odoso svak uzorak može bt - dmezoal vektor L ada vektor sredjh vrjedost deframo kao: L L Ako su oda dvodmezoal, tada je vektor sredjh vrjedost Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Profdrs Bojaa Dalbelo Bašć 6/39 PRIKAZ VEKORA SREDNJIH VRIJEDNOSI Varjaa skua uzoraka S je -dmezoal vektor da zrazom: ( ) ( ) ( ) ( ) L s Komoete ovog vektora mjere rašreost (sread) skua uzoraka duž svh os koje razaju -dmezoal rostor Razlčte komoete uzoraka mogu bt međusobo u korelaj, r vrjedost varjable a raste kada raste vrjedost varjable b Ovo svojstvo je sadržao u kovarja ab ov od a b defraoj kao: ( )( ) b b a a ab ov Matra C dmezje daa sa [ ] b a ab,,, ov K C, odoso
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Profdrs Bojaa Dalbelo Bašć 7/39 ( ) ( )( ) ( )( ) ( ) L M O M L C Nazva se kovarjaoa matra uzoraka Kovarjaoa matra za sku uzoraka koj ma vektor sredjh vrjedost ula ostaje autokorelaoa matra defraa ovako: ( ) ( ) R L M O M L (Naomee: Nazv SS SSCP za sum of squares ross rodut; R ) Geometrjsk gledao, metoda glavh komoeata je zbor ovog koordatog sustava dobveog ortogoalom trasformajom orgalog sustava GEOMERIJSKA INERPREACIJA GLAVNIH KOMPONENAA Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Profdrs Bojaa Dalbelo Bašć 8/39 Prva glava komoeta je smjer duž kojeg je varjaa odataka ajveća Druga glava komoeta je smjer maksmale varjae odataka u rostoru okomtom a rvu glavu komoetu Nov koordat sustav razaju rad svojstve vektor ajvećh svojstveh vrjedost kovarjaoe matre skua odataka Redukja dmezoalost metodom glavh komoeata Prmjer slke u boj Metoda glavh komoeata -> za redukju dmezoalost odataka, (uz što maje bth gubtaka) Izvor, -dm oda se rojekjom revode u k-dm r čemu vrjed, k < Ideja: aravt rojekju th uzoraka z -dm rostora N u k -dm otrostor M, al tako da t rojra uzor budu što slčj orgalm uzorma Projekja uzoraka z rostora N u otrostor M dobja se možejem uzorka trasoraom matrom matre V, ( k matra) čj stu redstavljaju bazu otrostora M zražeu reko baze N zvorog rostora Odoso, y V, gdje je uzorak u rostoru N, a y uzorak u rostoru M Potrostor u koj se vrš rojekja treba bt tako odabra da je ogreška rekostrukje ajmaja moguća, tj da se rojekjom zgub što je maje moguće formaje o zvorom odatku
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Prmjer Da je sku točaka u 3-dm rostoru ražmo -dm rkaz odataka koj što vjerje osuje orgal sku odataka Neka je da -dmezoal rostor uzoraka sku -uzoraka z tog rostora Vektor sredjh vrjedost uzoraka da je zrazom: PRIKAZ PODAAKA U ORIGINALNOM PROSORU Ako sredja vrjedost skua uzoraka je ula, tada svakom uzorku z S oduzmemo vektor sredjh vrjedost, odoso t ( ) ada će taj dobve sku uzoraka mat vektor sredjh vrjedost ula Projekja a Y-Z ravu, vjerje čuva zvore odatke ego rojekja a -Z PROJEKCIJA PODAAKA NA RAVNINU Da b odredl otrostor M u koj će se rojrat sku uzoraka otrebo je odredt kovarjaou matru skua uzoraka, te jee svojstvee vrjedost jedče svojstvee vektore Kovarjaoa matra račua se rema formul: C (, j) (, l ) ( j, l j ) tt j l Svojstvee vrjedost ( λ ) defrae su kao ul-točke jedadžbe, ( I C) 0 det λ Broj svojstveh vrjedost kovarjaoe matre C (dm ) je PCA ajbolje oodređuje otrostor koj čuva ajvše formaja! Profdrs Bojaa Dalbelo Bašć 9/39 Profdrs Bojaa Dalbelo Bašć 0/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Svojstve vektor e svojstvee vrjedost λ su oveza jedadžbom, C e λe e e ek e e ek V e e ek Svakom svojstveom vektoru odgovara jeda svojstvea vrjedost, Jedoj svojstveoj vrjedost može odgovarat beskoačo mogo svojstveh vektora, (međusobo kolear) Svakoj svojstveoj vrjedost rada samo jeda jedč svojstve vektor Svojstve vektor koj radaju razlčtm svojstvem vrjedostma međusobo su ortogoal Baza k-dmezoalog otrostora M određea je omoću 'vodećh' k jedčh svojstveh vektora kovarjaoe matre C (ače h ma!) Pod ojmom 'vodeć' jedč svojstve vektor odrazumjevaju se jedč svojstve vektor koj radaju ajvećm svojstvem vrjedostma Sada ovu matru V korstmo za roraje odataka z rostora N u rostor M Neka je sada ek uzorak z rostora N, tada je jegova rojekja y : e e e y e e e y y V k e e e k k k y k Sada je y k- ta glava komoeta Dobl smo -dmezoala vektor zasa kao k-dmezoala vektor glavh komoet y ( k < ) Sada tu rojekju rmjemo a sve elemete skua uzoraka Ovo roraje odataka je sada a ek ač komresja skua uzoraka B M { e, e,, ek } ( e ) > λ( e ), ( ) ( e ) > λ( e ), ( ) λ λ ( < < ) ( < < ) λ ( e ) > λ( e ), ( ) (k < < ), k Matra U (dm k), re su zas uzoraka zvorog rostora N u k-dm otrostoru M ove koordate matra trasformaje uzor zraže su starm koordatama U (k ) V (k ) ( ) gdje je B M baza vektorskog otrostora M, e su jedč svojstve vektor, a λ ( e ) su svojstvee vrjedost koje radaju jedčm svojstvem vektorma Stu matre V ( k matra) sadržavat će vektore z svojstveh vektora u termma orgalh varjabl B M, to je zas k Profdrs Bojaa Dalbelo Bašć /39 Profdrs Bojaa Dalbelo Bašć /39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Rekostrukja odataka rada ogreška U slučaju da metodu glavh komoeata želmo korstt za komresju odataka l za slaje odataka kaalma edostate šre (maje od dmezje odataka), tada će as zamat rekostrukja odataka ako slaja (komresje) greška koja r tome astaje Formula za rekostrukju uzorka z vektora glavh komoeata je: Prmjer rmjee metode glavh komoeata redukju dmezoalost odataka u obrad slke Boja u RGB zasu je redstavljea kao vektor u trodmezoalom rostoru čju bazu če vektor R, G B koj odgovaraju rveoj, lavoj zeleoj boj Dakle, svak slkov elemet (egl el) je jeda vektor u rostoru koj razaju vektor R, G B Slka je sku 3-dmezoalh odataka e e ek y ' e e ek y V y k e e ek y ORIGINALNA SLIKA U BOJI ( ) V ( k) U (k ) Usljed gubtka formaje koj je uzrokova rojekjom, javlja se ogreška rekostrukje (udaljeost zmeđu uzoraka), a je kvadrat je točo jedak sum svh svojstveh vrjedost koje su odbačee:, ε V V λ k+ Sredja kvadrata ogreška rekostrukje svh uzoraka z skua S je: ε V V Pretvorbu slke u boj u ro bjelu slku, odoso u jase sve, možemo gledat kao rojekju elemeata skua z 3-dmezoalog (R, G B) rostora u -dmezoala rostor Profdrs Bojaa Dalbelo Bašć 3/39 Profdrs Bojaa Dalbelo Bašć 4/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta PCA određuje smjer u kojem će rojekja mat ajveću varjau, odoso ro-bjela rojekja slke će zadržat ajvše formaja o boj (je ajbolj ač retvorbe!) smjer rve glave komoete je vektor u rostoru RGB - boja čjh razlčth jas a sl ma ajvše PROJEKCIJA NA OS B (PLAVA) Prmjer - a sl koja većom ma jase rvee boje, bolje će zgledat rojekja a os R (rvea), ego rojekja a G (zelea) l B (lava) PROJEKCIJA NA OS R (CRVENA) PROJEKCIJA U SMJERU PRVE GLAVNE KOMPONENE Projekja u smjeru rve glave komoete uvjek daje ajvjerju ro-bjelu slku Profdrs Bojaa Dalbelo Bašć 5/39 Profdrs Bojaa Dalbelo Bašć 6/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Lteratura: Johso, R A; Wher, D W: Aled Multvarate Statstal Aalyss, Prete Hall; 5th edto, 00 Poljak,, Metoda glavh komoeata, dlomsk rad, Matematčk odjel Prrodoslovo-matematčkog fakulteta, 003 egl aoomy aalyss 3 GRUPIRANJE PODAAKA (egl CLUSER ANALIZA) Clj: Prdružt objekte u grue a temelju slčost objekata Slčost je redefra krterj koj se račua z oažaja (mjereja) a objektma Ptaja: Koju mjeru slčost l razlčtost (egl smlarty, dssmlarty) korstt? Koj algortam gruraja korstt? Za gruraje objekata metrka, za gruraje varjabl korelajsk koefjet Profdrs Bojaa Dalbelo Bašć 7/39 Profdrs Bojaa Dalbelo Bašć 8/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Mjera udaljeost (egl dssmlarty measure) je mjera razlčtost odataka Prmjer: Mjera udaljeost l metrka d je fukja sa u R koja zadovoljava uvjete: D ( k, l ) 0, za k l, D ( k, l ) 0 (oztva deftost) D ( k, l ) D ( l, k ) (smetrčost) D ( k, l ) D ( k, j ) + D ( j, l ) (ravlo trokuta) Metrka: L, Eukldska, D ( k, j ) k j ( ( k j ) ) / sejal slučaj metrka Mkowsk za r D ( k, j ) ( k j r ) /r (rmjer: sku točaka u -dm rostoru koj je od eke čvrste točke, sredšta, udalje za odabrau kostatu vrjedost r je kruža) L, Mahatta l Ctyblok sejal slučaj metrka Mkowsk za r (rmjer: sku točaka u -dm rostoru koj je od eke čvrste točke, sredšta, udalje za odabrau kostatu vrjedost r je «djamat») Za bare vektora L je Hammgova udaljeost L, za r formula se azva Čebševljeva udaljeost: D ( k, ) Ma j N { kj j } (rmjer: sku točaka u -dm rostoru koj je od eke čvrste točke, sredšta, udalje za odabrau kostatu vrjedost r je kvadrat) Profdrs Bojaa Dalbelo Bašć 9/39 Profdrs Bojaa Dalbelo Bašć 30/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Statstčka udaljeost: Mahaloobsova udaljeost (948g) d(,y) sqrt [ (-y)'σ - (-y)], Vrste gruraja: Partjska Hjerarhjska gdje je Σ - verz matre varja-kovarja a je udaljeost oztvo defta kvadrata forma oblka 'A, sdje je A Σ - ooćeje je eukldske udaljeost ako varjable maju razlčte stadarde devjaje korelrae su! Na rmjer ako se Mahalaobsova udaljeost korst za račuaje udaljeost jede multvarjate oservaje od etra oulaje: D ( j ) vj ( j gdje su (,,, ) vrjedost varjabl,,,, a v j je elemet u -tom retku j-tom stuu verze matre varja kovarja j ) Parametarska (Prmjer: sku točaka u -dm rostoru koj je od eke čvrste točke, sredšta, udalje za odabrau kostatu vrjedost r je elsa) Profdrs Bojaa Dalbelo Bašć 3/39 Profdrs Bojaa Dalbelo Bašć 3/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Hjerarhjska gruraja rezultat gruraja DENDOGRAM ree Dagram for Cases Comlete Lkage Euldea dstaes Aura Olds Chrysler Dodge VW Hoda Pota Mtsub Nssa Aud Meredes BMW Saab Volvo Mazda oyota Buk Ford Isuzu Eagle Corvette Porshe 0 3 4 5 6 7 8 Lkage Dstae Aglomeratva hjerarhjska gruraja Metode ovezvaja (lkage methods) - ogode za varjable objekte sgle lkage omlete lkage average lkage Prmjer: Gruraje 4 odataka u -dm rostoru Aglomeratva (bottom-u) (očju dvdualm objektom, jalo objekat grua, ajslčj objekt se gruraju, grue se staaju u skladu s odabram krterjem) Dvzva (to-dow) (rade suroto, jalo svh odataka je jeda grua, koja se djel a odgrue, odgrue se djele dalje u skladu s odabram krterjem) Partjska gruraja su hjerarhjske (egl flat) K sredjh vrjedost, (k meas) SOM Parametarsk model EM algortam Profdrs Bojaa Dalbelo Bašć 33/39 Profdrs Bojaa Dalbelo Bašć 34/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Sgle lkage Povezvaje a temelju mmale udaljeost l ovezvaje ajblžeg susjeda Poda u roedur mogu bt udaljeost l slčost zmeđu objekata Najblž susjed određuje ajmaju udaljeost l ajveću slčost zmeđu odataka Zbog ača sajaja e može razlkovat slabo odjeljve grue, al može odjelt e-elsodale grue Ima tedeju stvaraja duljh laaa a čjm se krajevma jedke mogu bto razlkovat Povezvaje a temelju maksmale udaljeost udaljeost zmeđu dvje grue (elemeta) je određea ajvećom udaljeošću Osgurava da su sv objekt u gru uutar eke maksmale udaljeost Average Lkage Povezvaje a temelju sredje udaljeost zmeđu grua Udaljeost je sredja vrjedost udaljeost svh arova u gruama Uočava se slčost dedograma omlete lkage average lkage, al se ovezvaje dešava a razlčtm razama udaljeost Ulaz u ostuak ovezvaja može bt korelajske matra Slčost zmeđu dvju varjabl mjer se rodukt-momet korelajskm koefjetom Varjable s velkm egatvm korel koef smatraju se jako udaljema, a oe s većm oztvm smatraju se blskma Zaključ: hjerarhjske aglomeratve metode su osjetljve a outlere ema mogućost restvaja već rdjeljeh (krvo) objekata gruama dobro je robat vše metoda vše mjera udaljeost te rovjert kozstetost rješeja stablost gruraja može se rovjert dodavajem erturbaja Ako su grue jaso odjeljve gruraje rje oslje erturbaja se trebaju slagat Profdrs Bojaa Dalbelo Bašć 35/39 Profdrs Bojaa Dalbelo Bašć 36/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Partjske metoda: Algortam k sredjh vrjedost ajozatj ALGORIAM k SREDNJIH VRIJEDNOSI Odos se a artju objekata, a e varjabl Ne korst matru slčost a je zahvalja metoda za već sku odataka Ukratko: odabere se k očeth etara grua sve se vrjedost rasorede u k grua o ravlu mmale udaljeost 3 račua se ovh k etroda 4 oavljaj korake 3 dok vše ama romjea Algortam k - sredjh vrjedost (egl k meas algortam) je ostuak gruraja a temelju mmzaje krterjske fukje: N J Σ j J j, r čemu je J j Σ Sj Z j N redstavlja broj elemeata od k grua, dok S j redstavlja sku uzoraka čj je etar Z j Clj algortma je ać k sredšta grua Z, Z,, Z k za N očeth erasodjeljeh uzoraka Broj k se zadaje a očetku, zajedo sa uzorma, za jega vrjed: 0 < k < N Sefčost algortma je ta da ovs o redosljedu uzmaja uzoraka Algortam: zabremo k sredšta grua Z (), Z (),, Z k () Metoda zbora očeth sredšta grua je rozvolja Postoj ekolko tova uobčajeh zbora a rema tome ekolko tova algortma k sredjh vrjedost u m tom koraku (teraj) razdjeljujemo uzorke,,, N u k grua omoću relaje: S j (m) ako je Z j (m) < Z (m),,,, N; j S j (m) redstavlja sku uzoraka u m tom koraku čj je etar Z j 3 zračuavamo ova sredšta grua Z j (m+), j,,, k tako da je krterjska fukja J Σ k j Σ Sj(m) Z j (m+) mmala Sredšta grua koja mmzraju krterjsku fukju u m toj teraj su artmetčke sredje vrjedost uzoraka ojedh grua Z j (m+) /N j ( Σ Sj(m) ) gru za j,,, k; N j je broj uzoraka u 4 ako je Z j (m+) Z j (m) za sve j,,, k, ostuak završava Ukolko taj uvjet je suje, oavljamo ostuak od koraka Na rezultat gruraja omoću algortma k sredjh vrjedost utječe: broj grua zbor očeth sredšta grua Algortam zahtjeva eksermetraje sa razlčtm vrjedostma k razlčtm očetm kofgurajama etara Nema oćetog dokaza o kovergej algortma Profdrs Bojaa Dalbelo Bašć 37/39 Profdrs Bojaa Dalbelo Bašć 38/39
Otkrvaje zaja u skuovma odataka Metoda glavh komoeeta Metoda glavh komoeata gruraje Može se radt PCA rje gruraja kako b se redurao velk broj varjabl tme smajlo ukuo račuaje Rezultat se sa bez redroesraja s PCA mogu razlkovat! Lteratura: Hartga, JA, Clusterg Algorthms, Joh Wley & Sos, 975 Profdrs Bojaa Dalbelo Bašć 39/39