Strono učene Tehnke stronog učena bez nadzora do /2 Tomslav Šmuc
Prmer - HRD 2
Učene bez nadzora - Pregled Clusterng Gruprane prmera (podataka) u grupe međusobno slčnh prmera Ko prmer su slčn? (kupc, pacent, zvezde, slke, web-strance...) Algortm: - parttvn algortm: k-means - herarhsk algortm - SOM - Self-Organzaton Maps (topologa prmera) Proekca podataka, redukca dmenza - pronalažene latentnh struktura; redukca dmenzonalnost Algortm: - Prncpal Component Analyss (PCA) - Independent Component Analyss (ICA), - Non-negatve matrx factorzaton (NMF) 3
Clusterng Clusterng - gruprane l segmentaca prmera (podataka) u všedmenznalnom prostoru - postoe delov ko su gušće pokrven prmerma - Centraln poam slčnost/udalenost zmeđu prmera - Ima slčnost sa učenem pod nadzorom, no kod klasfkace trošak pogreške na nek e načn odvoen od samh podataka (klase l oznake) Osnovn problem: - kolko cluster-a ma? 4
Clusterng Osnovn problem: - kolko cluster-a ma? K=4? K=5? 5
Clusterng Osnovn cl: - odredt ntrnsčno gruprane (neoznačenh) prmera? Kako ćemo odredt što e dobar rezultat clusterng-a? Nema apsolutnog krtera! Nema krtera ko e odvoen od konačnog cla clusterng-a Korsnk btan kod određvana krtera poznavane područa cleva prmene! Moguće prmene clusterng-a Redukca potrebnh podataka slčn podac l replke nsu potrebne Pronalažene prrodnh grupa/cluster-a nhovo opsvane (nova saznana) Korsno gruprane Za detekcu outler-a, grešaka, šuma (ndrektno) 6
Clusterng Clusterng osnovn prstup Parttvn algortm Prmer se gruprau u dstnktne grupe (edan prmer edna grupa/cluster) algortam K-means (K srednh vrednost) Herarhsk algortm Pronalaze se defnrau grupe podgrupe prmera (herarha cluster-a) Aglomeratvn dvzvn algortm Ne-ekskluzvn algortm Tzv. fuzzy sets prstup: edan prmer može stodobno prpadat dvama l vše cluster-a (stupan prpadnost) Algortam: Fuzzy C-Means Probablstčk algortm Pretpostavla određue (parametarsk defnranu) dstrbucu z koe su generran prmerc EM algortm (Expectaton maxmzaton) - Gaussan mxture model: u osnov varanta K-means algortma 7
Clusterng Parttvn clusterng - defnce Odredt encodng funkcu koa određue prpadnost prmera x određenom clusteru k: C() =k Da b odredl C(), moramo defnrat funkcu kou ćemo optmrat koa nabole odražava ono što želmo postć: - odredt homogene/blske grupe prmera. Defnramo udalenost razlčtost prmera d p 2 ( x, x' ) w ( x, x', ) 2 Ako želmo da sve varable podednako uteču na udalenost zmeđu prmera w / d gde e d N N N d ( x,, x', ) 2 ' 8
Clusterng Parttvn clusterng - defnce Defnramo sledeće funkce - W(C): udalenost (razlčtost dssmlarty) zmeđu prmera ste grupe (clustera) - B(C): udalenost (razlčtost dssmlarty) zmeđu prmera razlčth grupa (clustera) W 2 K ( C) d ( x, x ) B( C) ' k C( ) k C( ' ) k 3. M želmo da W(C) bude mnmalno: 2 K k C( ) k C( ' ) k d ( x, x ' ) W( C) T B( C) T W( C) B( C) Ukupna međusobna udalenost zmeđu prmera određenog skupa T e konstantna! 9
Clusterng K means K-means: algortam Uz zadan K (bro clustera) : Incalzaca: Izaber k srednh vrednost (slučan odabr) Izračuna udalenost: Za =,,k =,,n zračuna x μ Prdel x nablžo sredno vrednost μ : Da b reprezentral prpadnost μ, uvodmo ndkatorsku varablu γ ako argmn x μ ' ' 0 nace γ = =2 =3 x 0 0 x2 0 0 x3 0 0 x4 0 0 x5 0 0 x6 0 0 γ - članov matrce γ (n*k) edna po retku (prmer x ) 0
Clusterng K means K=3 K-means: lustraca 2 3 4 5 6
Clusterng K means K-means - detal Incaln centrod - uglavnom slučano određen Centrod se tpčno određue kao sredna vrednost točaka u cluster-u Udalenost prmera tpčno Eukldska, al druge mere: korelaca, kosnusna slčnost Konvergenca uvek konvergra, za načešće korštene mere udalenost naveće promene su u prvm teracama. stoppng krter: občno kada e bro promena < od nekog zadanog broa Složenost: O( n * K * I * d ) n = bro točaka, K = bro cluster-a, I = bro teraca, d = bro atrbuta/varabl 2
Clusterng K means (0 l ) prpadnost (Hard clusterng) soft clusterng (0 ) prpadnost 3
Clusterng Soft K-means Mešavna klastera kombnacom k Gaussove dstrbuce p( x ) K p( ) Ν( x 2, ) = veroatnost da e x posledca (težnska kombnaca) K Gaussovh dstrbuca. Nepoznance parametr modela koe treba odredt: K p veroatnost klastera () (vred) p = θ = (μ, σ ) =, EM algortam - Expectaton Maxmzaton Kad b znal γ c (x) veroatnost prpadana x klasteru c, blo b ednostavno odredt μ c, σ c klastera. No, da b odredl γ c x trebau nam μ c, σ c! 4
EM algortam. Incra početne parametre 2. E korak (Expectaton) u terac t, zračuna očekvana vrednost ndkatora γ c t x (da prmer x prpada klas c) normalzra: 3. M korak (Maxmzaton) Osvež parametre - γ c t+, μ c t+, Σ c t+ 0 0 0,, c c c K t t t t c t c t c t c N p N p ), ( ), ( ) ( ~ x x x n t c t c t c T t c n t c t c K t t c t c n p ) ( ) ( ) )( ( ) ( ) ( x μ x μ x x x x x μ K t t c t c ) ( ~ ) ( ~ ) ( x x x Ponavla dok promena γ c t+ x γ c t x < ε x Clusterng Soft K-means
Clusterng K means Problem ogrančena K-means algortma Odabr ncalnh centroda (slučaan)!? Uteca outler-a!? Karakterstke stvarnh cluster-a Oblk, velčna, gustoća Kolk e (optmaln) K!? 6
Clusterng K means Evaluaca clusterng rezultata Načešća mera suma kvadratne pogreške (SSE): Za svak prmer, greška e kvadrat udalenost do centrode c cluster-a koem prmer x prpada SSE K xc Uz dana 2 cluster-a odabrat ćemo ona s manom greškom! Jedan od načna kako smant SSE - povećat K bro cluster-a d 2 ( c, x bole mere mogu razlkovat dobar rezultat sa manm K, od relatvno lošeg rezultata sa većm K ) 7
Clusterng K means Mere dobrote clusterng-a (en. cluster valdty measures): Davs Bouldn Index, Dunn s Valdty ndex, C-ndex... Davs Bouldn Index (DBI) Funkca (sume) raspršena prmera unutar (ntra) cluster-a separace zmeđu clustera Ako su C={C,.., C k } cluster na skupu N prmera defnramo: R var( C ) var( C c c ) R max R,.. k, c centrod C DBI. k k R Mnmaln DBI => optmalan K; DBI usporedba clusterng metoda 8
Clusterng K means Problem ogrančena K-means algortma: razlčte velčne Orgnalno gruprane razlčte velčne razlčte gustoće nekonveksan oblk K-means (K=3) 9
Clusterng K means Tpčno rešene: već K - Delov (pravh) cluster-a: treba h oš povezat!? Orgnalno gruprane K-means (K=0) 20
Herarhsk clusterng Herarhsk clusterng Herarha grupa/cluster-a, organzranh poput obrnutog stabla ~ dendrograma Dendrogram dagram kom se prkazue redosled spaana prmera/clustera 6 5 4 3 4 2 5 2 3 2 5 4 6 3 2
Herarhsk clusterng HC - Zbog čega može bt nteresantan? Moguće e da udalenost zmeđu prmera, a tme HC dae nekakvu smslenu herarhu taksonomu koncepata Npr. u bolog sekvence prema slčnost flogenetska stabla organzama) Bro clustera (udružvana) može bt prozvolan 22
Herarhsk clusterng Herarhsk clusterng Dva osnovna tpa Aglomeratvnog tpa (spaane : bottom up ) Početak točke su osnovn cluster U svakom koraku spaamo naslčn par cluster-a Kra - kada dostgnemo zadan bro K (l mnmalno edan velk cluster) Razdvaauć (en. dvsve) (delene: top-down ) Početak edan velk cluster = sv prmer U svakom koraku, delmo cluster sve dok ne dodemo do nvoa zadanog broa K clustera (l e svak cluster edan prmer) Pr spaanu l delenu korstmo matrce slčnost l udalenost zmeđu prmera 23
Herarhsk clusterng Aglomeratvn HC algortam Izračuna matrcu udalenost/slčnost Svak prmer e cluster ponavla Spo dva nablža cluster-a Ponovno zračuna udalenost/slčnost u matrc dok ne preostane samo K cluster-a (edan cluster) Osnovna operaca računane udalenost/slčnost zmeđu dva cluster-a: Razlčt prstup 24
Herarhsk clusterng Aglomeratvn HC algortam Početak p p2 p3 -... pn p 0. 2.... P2. 0 3.2... P3 2. 3.2 0............ Matrca udalenost 25
Herarhsk clusterng Aglomeratvn HC algortam. korak c c2 -... c C 0.... c3 2. 3.2............ Matrca udalenost 26
Herarhsk clusterng Aglomeratvn HC algortam Zadn korak (K=4)... p p2 p3 p4 p5 p7 p6 p2 p4 27
Herarhsk clusterng AHC - Osnovno ptane Kako računamo matrcu udalenost/slčnost zmeđu cluster-a? d(c,c ) MIN d(x,x ) MAX d(x,x ) Udalenost zmeđu centroda c c Sredna udalenost prmera c naspram prmera c Druge složene metode 28
Herarhsk clusterng AHC - Osnovno ptane Zavsno o odabrano metod dobt ćemo razlčt rezultat! MIN d(x,x ) dobro: dobro aproksmra elptčne oblke cluster-a loše: osetlva na šum outler točke MAX d(x,x ) dobro: mane osetlva na šum outler-e loše: - sklona mrvlenu većh cluster-a - sklona stvaranu globularnh cluster-a Sredna udalenost prmera c naspram prmera c Komproms zmeđu MIN MAX Dobro: mane osetlva na šum outler-e Loše: - sklona stvaranu globularnh cluster-a 29
Herarhsk clusterng AHC: razlčte metode računana udalenost/slčnost => razlčt konačn rezultat MIN 5 2 3 2 4 4 3 5 6 5 2 2 5 MAX 5 4 2 5 2 3 6 3 4 Sredna vrednost 4 3 4 3 6 30
Herarhsk clusterng AHC: složenost O(N 2 ) prostorna (N= br prmera N 2 matrca udalenost/slčnost) O(N 3 ) vremenska N koraka, N 2 proračuna matrce, te pronalažene naslčnh cluster-a Nek algortm postžu O(N 2 log(n) ) 3
Herarhsk clusterng DHC : MST (Mnmum Spannng Tree)algortam. Inkrementalno grad MST Početak: Stablo e edan (prv - slučan) prmer x p Ponavla - doda nov prmer x u stablo tako da nađeš mnmaln d(x p, x ) zmeđu svh parova x p unutar stabla x - van stabla - Doda x u stablo stav vezu zmeđu x p x dok nsu sve točke u stablu 6 3 5 2 4 32
Herarhsk clusterng Razdvaauć herarhsk clusterng DHC : MST (Mnmum Spannng Tree)algortam 2. Korst MST da b napravo cluster-e: MST e cluster Ponavla - naprav nov cluster tako nađeš naveću udalenost (namana slčnost) koa oš ne preknuta u nekom od postoećh delova MST (cluster-a) dok nsu sve sv delov stabla (cluster) sveden na prmere 33
SOM (Self-organzng-maps) SOM (Teuvo Kohonen, 98) - Cl: topologa prmera => maprane prmera u nže-dmenzonaln prostor, uz uvet da udalenost zmeđu prmera budu što e vše moguće sačuvane - Kohonenove mape proekca všedmenzonalnog prostora - na D l 2D grd/mapu čvorova (neuron!) -Veza prema stvarno bolog: - slčna percepca vod na eksctrane u stm područma mozga 34
SOM (Self-organzng-maps) SOM samo-organzrauća mapa (Teuvo Kohonen) SOM algortam uč maprane s ulaznh prmera na 2D/D mrežu neurona y modeln vektor y - modeln vektor se nalaze na map (D l 2D) Sačuvane orgnalne topologe prmera (~ sačuvane udalenost zmeđu prmera) clusterng alat kod koeg e vzualzaca btan aspekt SOM ma generalzacska svostva: Nov prmer asmlra se u određenom čvoru mreže! 35
SOM (Self-organzng-maps) SOM Algortam Odabrat topologu mreže (mxm, oblk čvorova...) ncalzra početnu velčnu susedstva D(0) zada 0 ( t) ( t ) faktor učena (uglavnom promenv smanue se s t) Arhtektura x --- x --- x n Incalzra modelne vektore y dok ne zadovolen krter zaustavlana a. Odaber ulazn prmer x b. Odred eukldske udalenost zmeđu x čvora y na mrež k n ( x, k y, k 2 ) y y y m c. Odred čvor * prema koem udalenost ma mnmalnu vrednost u odnosu na x d. Promen sve modelne vektore na mrež ko su unutar susedstva D(t) od y * korsteć: poveća t y ( t ) y ( t) ( t)( x y ( t)) 36
SOM (Self-organzng-maps) SOM znača prmene - NN model rada mozga - Vzualzaca velkh skupova podataka - Vd reprezentace znana SOM: World poverty map 37
SOM (Self-organzng-maps) SOM: comp.a.neural-nets newsgroup 38