Strojno učenje. Tehnike strojnog učenja bez nadzora dio 1/2. Tomislav Šmuc

Σχετικά έγγραφα
transformacija j y i x x promatramo dva koordinatna sustava S i S sa zajedničkim ishodištem z z Homogene funkcije Ortogonalne transformacije

Ekonometrija 4. Ekonometrija, Osnovne studije. Predavač: Aleksandra Nojković

Ispitivanje toka i skiciranje grafika funkcija

Reverzibilni procesi

F (t) F (t) F (t) OGLEDNI PRIMJER SVEUČILIŠTE J.J.STROSSMAYERA U OSIJEKU ZADATAK

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Računarska grafika. Rasterizacija linije

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

Elektrotehnički fakultet univerziteta u Beogradu 16.maj Odsek za Softversko inžinjerstvo

numeričkih deskriptivnih mera.

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

Moguća i virtuelna pomjeranja

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

TEHNIČKI FAKULTET SVEUČILIŠTA U RIJECI Zavod za elektroenergetiku. Prijelazne pojave. Osnove elektrotehnike II: Prijelazne pojave

Metoda najmanjih kvadrata

pismeni br.4 4.2: Izračunati yds, gdje je K luk parabole y 2 = 2 px od ishodišta to točke

41. Jednačine koje se svode na kvadratne

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

PRESECI SA PRSLINOM - VELIKI EKSCENTRICITET

- pravac n je zadan s točkom T(2,0) i koeficijentom smjera k=2. (30 bodova)

Operacije s matricama

IZVODI ZADACI (I deo)

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Računarska grafika. Rasterizacija linije

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Obrada signala

Eliminacijski zadatak iz Matematike 1 za kemičare

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Polarizacija. Procesi nastajanja polarizirane svjetlosti: a) refleksija b) raspršenje c) dvolom d) dikroizam

Elementi spektralne teorije matrica

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Strukture GMDH u modeliranju i predikciji vremenskih serija. Ivan Ivek

TRIGONOMETRIJA TROKUTA

INTELIGENTNO UPRAVLJANJE

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

( ) BROJNI PRIMER 4. Temeljni nosač na sloju peska. Slika 6.3. Rešenje: Ekvivalentni modul reakcije podloge/peska k i parametar krutosti λ :

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

ANALIZA I INTERPRETACIJA

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

18. listopada listopada / 13

Numerička matematika 2. kolokvij (1. srpnja 2009.)

APROKSIMACIJA FUNKCIJA

3.1 Granična vrednost funkcije u tački

Aritmetički i geometrijski niz

Osnovne teoreme diferencijalnog računa

Numerično reševanje. diferencialnih enačb II

RAČUNANJE SA PRIBLIŽNIM VREDNOSTIMA BROJEVA

1. VAJA IZ TRDNOSTI. (linearna algebra - ponovitev, Kroneckerjev δ i j, permutacijski simbol e i jk )

Akvizicija tereta. 5660t. Y= masa drva, X=masa cementa. Na brod će se ukrcati 1733 tona drva i 3927 tona cementa.

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

NOMENKLATURA ORGANSKIH SPOJEVA. Imenovanje aromatskih ugljikovodika

SISTEMI NELINEARNIH JEDNAČINA

OM2 V3 Ime i prezime: Index br: I SAVIJANJE SILAMA TANKOZIDNIH ŠTAPOVA

Novi Sad god Broj 1 / 06 Veljko Milković Bulevar cara Lazara 56 Novi Sad. Izveštaj o merenju

Uvod u neparametarske testove

Teorijske osnove informatike 1

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Linearna algebra 2 prvi kolokvij,

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

SEMINAR IZ KOLEGIJA ANALITIČKA KEMIJA I. Studij Primijenjena kemija

Odred eni integrali. Osnovne osobine odred enog integrala: f(x)dx = 0, f(x)dx = f(x)dx + f(x)dx.

Trigonometrijske nejednačine

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

OSNOVI ELEKTRONIKE. Vežbe (2 časa nedeljno): mr Goran Savić

Prema tome, kao sredstva koja uvrštavamo u portfolio pojavljuju se sredstvo 3, sa najvećim iznosom Sharpe-ovog indeksa, i sredstvo 2.

Matematka 1 Zadaci za drugi kolokvijum

Proračun potrebnog broja vozila II 1/13

Matematika 1 - vježbe. 11. prosinca 2015.

KONVEKSNI SKUPOVI. Definicije: potprostor, afin skup, konveksan skup, konveksan konus. 1/5. Back FullScr

Antene. Srednja snaga EM zračenja se dobija na osnovu intenziteta fluksa Pointingovog vektora kroz sferu. Gustina snage EM zračenja:

π π ELEKTROTEHNIČKI ODJEL i) f (x) = x 3 x 2 x + 1, a = 1, b = 1;

Dvanaesti praktikum iz Analize 1

Dinamika krutog tijela ( ) Gibanje krutog tijela. Gibanje krutog tijela. Pojmovi: C. Složeno gibanje. A. Translacijsko gibanje krutog tijela. 14.

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

1.4 Tangenta i normala

Riješeni zadaci: Nizovi realnih brojeva

3. razred gimnazije- opšti i prirodno-matematički smer ALKENI. Aciklični nezasićeni ugljovodonici koji imaju jednu dvostruku vezu.

Izbor prenosnih odnosa teretnog vozila - primer

I Pismeni ispit iz matematike 1 I

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Kaskadna kompenzacija SAU

Trigonometrijski oblik kompleksnog broja

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

Program testirati pomoću podataka iz sledeće tabele:

Riješeni zadaci: Limes funkcije. Neprekidnost

O={ k w kj } Dakako, u općenitom slučaju mreža ima više od jednog neurona u izlaznom sloju. Neka ti izlazi čine skup O. Onda redefiniramo pogrešku:

ELEKTROTEHNIČKI ODJEL

Zavrxni ispit iz Matematiqke analize 1

SEKUNDARNE VEZE međumolekulske veze

Projektovanje integrisanih kola. I. I. Uvod Uvod - sistem projektovanja. Sadržaj:

POTPUNO RIJEŠENIH ZADATAKA PRIRUČNIK ZA SAMOSTALNO UČENJE

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

LANCI & ELEMENTI ZA KAČENJE

Linearna algebra 2 prvi kolokvij,

I.13. Koliki je napon između neke tačke A čiji je potencijal 5 V i referentne tačke u odnosu na koju se taj potencijal računa?

Transcript:

Strono učene Tehnke stronog učena bez nadzora do /2 Tomslav Šmuc

Prmer - HRD 2

Učene bez nadzora - Pregled Clusterng Gruprane prmera (podataka) u grupe međusobno slčnh prmera Ko prmer su slčn? (kupc, pacent, zvezde, slke, web-strance...) Algortm: - parttvn algortm: k-means - herarhsk algortm - SOM - Self-Organzaton Maps (topologa prmera) Proekca podataka, redukca dmenza - pronalažene latentnh struktura; redukca dmenzonalnost Algortm: - Prncpal Component Analyss (PCA) - Independent Component Analyss (ICA), - Non-negatve matrx factorzaton (NMF) 3

Clusterng Clusterng - gruprane l segmentaca prmera (podataka) u všedmenznalnom prostoru - postoe delov ko su gušće pokrven prmerma - Centraln poam slčnost/udalenost zmeđu prmera - Ima slčnost sa učenem pod nadzorom, no kod klasfkace trošak pogreške na nek e načn odvoen od samh podataka (klase l oznake) Osnovn problem: - kolko cluster-a ma? 4

Clusterng Osnovn problem: - kolko cluster-a ma? K=4? K=5? 5

Clusterng Osnovn cl: - odredt ntrnsčno gruprane (neoznačenh) prmera? Kako ćemo odredt što e dobar rezultat clusterng-a? Nema apsolutnog krtera! Nema krtera ko e odvoen od konačnog cla clusterng-a Korsnk btan kod određvana krtera poznavane područa cleva prmene! Moguće prmene clusterng-a Redukca potrebnh podataka slčn podac l replke nsu potrebne Pronalažene prrodnh grupa/cluster-a nhovo opsvane (nova saznana) Korsno gruprane Za detekcu outler-a, grešaka, šuma (ndrektno) 6

Clusterng Clusterng osnovn prstup Parttvn algortm Prmer se gruprau u dstnktne grupe (edan prmer edna grupa/cluster) algortam K-means (K srednh vrednost) Herarhsk algortm Pronalaze se defnrau grupe podgrupe prmera (herarha cluster-a) Aglomeratvn dvzvn algortm Ne-ekskluzvn algortm Tzv. fuzzy sets prstup: edan prmer može stodobno prpadat dvama l vše cluster-a (stupan prpadnost) Algortam: Fuzzy C-Means Probablstčk algortm Pretpostavla određue (parametarsk defnranu) dstrbucu z koe su generran prmerc EM algortm (Expectaton maxmzaton) - Gaussan mxture model: u osnov varanta K-means algortma 7

Clusterng Parttvn clusterng - defnce Odredt encodng funkcu koa određue prpadnost prmera x određenom clusteru k: C() =k Da b odredl C(), moramo defnrat funkcu kou ćemo optmrat koa nabole odražava ono što želmo postć: - odredt homogene/blske grupe prmera. Defnramo udalenost razlčtost prmera d p 2 ( x, x' ) w ( x, x', ) 2 Ako želmo da sve varable podednako uteču na udalenost zmeđu prmera w / d gde e d N N N d ( x,, x', ) 2 ' 8

Clusterng Parttvn clusterng - defnce Defnramo sledeće funkce - W(C): udalenost (razlčtost dssmlarty) zmeđu prmera ste grupe (clustera) - B(C): udalenost (razlčtost dssmlarty) zmeđu prmera razlčth grupa (clustera) W 2 K ( C) d ( x, x ) B( C) ' k C( ) k C( ' ) k 3. M želmo da W(C) bude mnmalno: 2 K k C( ) k C( ' ) k d ( x, x ' ) W( C) T B( C) T W( C) B( C) Ukupna međusobna udalenost zmeđu prmera određenog skupa T e konstantna! 9

Clusterng K means K-means: algortam Uz zadan K (bro clustera) : Incalzaca: Izaber k srednh vrednost (slučan odabr) Izračuna udalenost: Za =,,k =,,n zračuna x μ Prdel x nablžo sredno vrednost μ : Da b reprezentral prpadnost μ, uvodmo ndkatorsku varablu γ ako argmn x μ ' ' 0 nace γ = =2 =3 x 0 0 x2 0 0 x3 0 0 x4 0 0 x5 0 0 x6 0 0 γ - članov matrce γ (n*k) edna po retku (prmer x ) 0

Clusterng K means K=3 K-means: lustraca 2 3 4 5 6

Clusterng K means K-means - detal Incaln centrod - uglavnom slučano određen Centrod se tpčno određue kao sredna vrednost točaka u cluster-u Udalenost prmera tpčno Eukldska, al druge mere: korelaca, kosnusna slčnost Konvergenca uvek konvergra, za načešće korštene mere udalenost naveće promene su u prvm teracama. stoppng krter: občno kada e bro promena < od nekog zadanog broa Složenost: O( n * K * I * d ) n = bro točaka, K = bro cluster-a, I = bro teraca, d = bro atrbuta/varabl 2

Clusterng K means (0 l ) prpadnost (Hard clusterng) soft clusterng (0 ) prpadnost 3

Clusterng Soft K-means Mešavna klastera kombnacom k Gaussove dstrbuce p( x ) K p( ) Ν( x 2, ) = veroatnost da e x posledca (težnska kombnaca) K Gaussovh dstrbuca. Nepoznance parametr modela koe treba odredt: K p veroatnost klastera () (vred) p = θ = (μ, σ ) =, EM algortam - Expectaton Maxmzaton Kad b znal γ c (x) veroatnost prpadana x klasteru c, blo b ednostavno odredt μ c, σ c klastera. No, da b odredl γ c x trebau nam μ c, σ c! 4

EM algortam. Incra početne parametre 2. E korak (Expectaton) u terac t, zračuna očekvana vrednost ndkatora γ c t x (da prmer x prpada klas c) normalzra: 3. M korak (Maxmzaton) Osvež parametre - γ c t+, μ c t+, Σ c t+ 0 0 0,, c c c K t t t t c t c t c t c N p N p ), ( ), ( ) ( ~ x x x n t c t c t c T t c n t c t c K t t c t c n p ) ( ) ( ) )( ( ) ( ) ( x μ x μ x x x x x μ K t t c t c ) ( ~ ) ( ~ ) ( x x x Ponavla dok promena γ c t+ x γ c t x < ε x Clusterng Soft K-means

Clusterng K means Problem ogrančena K-means algortma Odabr ncalnh centroda (slučaan)!? Uteca outler-a!? Karakterstke stvarnh cluster-a Oblk, velčna, gustoća Kolk e (optmaln) K!? 6

Clusterng K means Evaluaca clusterng rezultata Načešća mera suma kvadratne pogreške (SSE): Za svak prmer, greška e kvadrat udalenost do centrode c cluster-a koem prmer x prpada SSE K xc Uz dana 2 cluster-a odabrat ćemo ona s manom greškom! Jedan od načna kako smant SSE - povećat K bro cluster-a d 2 ( c, x bole mere mogu razlkovat dobar rezultat sa manm K, od relatvno lošeg rezultata sa većm K ) 7

Clusterng K means Mere dobrote clusterng-a (en. cluster valdty measures): Davs Bouldn Index, Dunn s Valdty ndex, C-ndex... Davs Bouldn Index (DBI) Funkca (sume) raspršena prmera unutar (ntra) cluster-a separace zmeđu clustera Ako su C={C,.., C k } cluster na skupu N prmera defnramo: R var( C ) var( C c c ) R max R,.. k, c centrod C DBI. k k R Mnmaln DBI => optmalan K; DBI usporedba clusterng metoda 8

Clusterng K means Problem ogrančena K-means algortma: razlčte velčne Orgnalno gruprane razlčte velčne razlčte gustoće nekonveksan oblk K-means (K=3) 9

Clusterng K means Tpčno rešene: već K - Delov (pravh) cluster-a: treba h oš povezat!? Orgnalno gruprane K-means (K=0) 20

Herarhsk clusterng Herarhsk clusterng Herarha grupa/cluster-a, organzranh poput obrnutog stabla ~ dendrograma Dendrogram dagram kom se prkazue redosled spaana prmera/clustera 6 5 4 3 4 2 5 2 3 2 5 4 6 3 2

Herarhsk clusterng HC - Zbog čega može bt nteresantan? Moguće e da udalenost zmeđu prmera, a tme HC dae nekakvu smslenu herarhu taksonomu koncepata Npr. u bolog sekvence prema slčnost flogenetska stabla organzama) Bro clustera (udružvana) može bt prozvolan 22

Herarhsk clusterng Herarhsk clusterng Dva osnovna tpa Aglomeratvnog tpa (spaane : bottom up ) Početak točke su osnovn cluster U svakom koraku spaamo naslčn par cluster-a Kra - kada dostgnemo zadan bro K (l mnmalno edan velk cluster) Razdvaauć (en. dvsve) (delene: top-down ) Početak edan velk cluster = sv prmer U svakom koraku, delmo cluster sve dok ne dodemo do nvoa zadanog broa K clustera (l e svak cluster edan prmer) Pr spaanu l delenu korstmo matrce slčnost l udalenost zmeđu prmera 23

Herarhsk clusterng Aglomeratvn HC algortam Izračuna matrcu udalenost/slčnost Svak prmer e cluster ponavla Spo dva nablža cluster-a Ponovno zračuna udalenost/slčnost u matrc dok ne preostane samo K cluster-a (edan cluster) Osnovna operaca računane udalenost/slčnost zmeđu dva cluster-a: Razlčt prstup 24

Herarhsk clusterng Aglomeratvn HC algortam Početak p p2 p3 -... pn p 0. 2.... P2. 0 3.2... P3 2. 3.2 0............ Matrca udalenost 25

Herarhsk clusterng Aglomeratvn HC algortam. korak c c2 -... c C 0.... c3 2. 3.2............ Matrca udalenost 26

Herarhsk clusterng Aglomeratvn HC algortam Zadn korak (K=4)... p p2 p3 p4 p5 p7 p6 p2 p4 27

Herarhsk clusterng AHC - Osnovno ptane Kako računamo matrcu udalenost/slčnost zmeđu cluster-a? d(c,c ) MIN d(x,x ) MAX d(x,x ) Udalenost zmeđu centroda c c Sredna udalenost prmera c naspram prmera c Druge složene metode 28

Herarhsk clusterng AHC - Osnovno ptane Zavsno o odabrano metod dobt ćemo razlčt rezultat! MIN d(x,x ) dobro: dobro aproksmra elptčne oblke cluster-a loše: osetlva na šum outler točke MAX d(x,x ) dobro: mane osetlva na šum outler-e loše: - sklona mrvlenu većh cluster-a - sklona stvaranu globularnh cluster-a Sredna udalenost prmera c naspram prmera c Komproms zmeđu MIN MAX Dobro: mane osetlva na šum outler-e Loše: - sklona stvaranu globularnh cluster-a 29

Herarhsk clusterng AHC: razlčte metode računana udalenost/slčnost => razlčt konačn rezultat MIN 5 2 3 2 4 4 3 5 6 5 2 2 5 MAX 5 4 2 5 2 3 6 3 4 Sredna vrednost 4 3 4 3 6 30

Herarhsk clusterng AHC: složenost O(N 2 ) prostorna (N= br prmera N 2 matrca udalenost/slčnost) O(N 3 ) vremenska N koraka, N 2 proračuna matrce, te pronalažene naslčnh cluster-a Nek algortm postžu O(N 2 log(n) ) 3

Herarhsk clusterng DHC : MST (Mnmum Spannng Tree)algortam. Inkrementalno grad MST Početak: Stablo e edan (prv - slučan) prmer x p Ponavla - doda nov prmer x u stablo tako da nađeš mnmaln d(x p, x ) zmeđu svh parova x p unutar stabla x - van stabla - Doda x u stablo stav vezu zmeđu x p x dok nsu sve točke u stablu 6 3 5 2 4 32

Herarhsk clusterng Razdvaauć herarhsk clusterng DHC : MST (Mnmum Spannng Tree)algortam 2. Korst MST da b napravo cluster-e: MST e cluster Ponavla - naprav nov cluster tako nađeš naveću udalenost (namana slčnost) koa oš ne preknuta u nekom od postoećh delova MST (cluster-a) dok nsu sve sv delov stabla (cluster) sveden na prmere 33

SOM (Self-organzng-maps) SOM (Teuvo Kohonen, 98) - Cl: topologa prmera => maprane prmera u nže-dmenzonaln prostor, uz uvet da udalenost zmeđu prmera budu što e vše moguće sačuvane - Kohonenove mape proekca všedmenzonalnog prostora - na D l 2D grd/mapu čvorova (neuron!) -Veza prema stvarno bolog: - slčna percepca vod na eksctrane u stm područma mozga 34

SOM (Self-organzng-maps) SOM samo-organzrauća mapa (Teuvo Kohonen) SOM algortam uč maprane s ulaznh prmera na 2D/D mrežu neurona y modeln vektor y - modeln vektor se nalaze na map (D l 2D) Sačuvane orgnalne topologe prmera (~ sačuvane udalenost zmeđu prmera) clusterng alat kod koeg e vzualzaca btan aspekt SOM ma generalzacska svostva: Nov prmer asmlra se u određenom čvoru mreže! 35

SOM (Self-organzng-maps) SOM Algortam Odabrat topologu mreže (mxm, oblk čvorova...) ncalzra početnu velčnu susedstva D(0) zada 0 ( t) ( t ) faktor učena (uglavnom promenv smanue se s t) Arhtektura x --- x --- x n Incalzra modelne vektore y dok ne zadovolen krter zaustavlana a. Odaber ulazn prmer x b. Odred eukldske udalenost zmeđu x čvora y na mrež k n ( x, k y, k 2 ) y y y m c. Odred čvor * prema koem udalenost ma mnmalnu vrednost u odnosu na x d. Promen sve modelne vektore na mrež ko su unutar susedstva D(t) od y * korsteć: poveća t y ( t ) y ( t) ( t)( x y ( t)) 36

SOM (Self-organzng-maps) SOM znača prmene - NN model rada mozga - Vzualzaca velkh skupova podataka - Vd reprezentace znana SOM: World poverty map 37

SOM (Self-organzng-maps) SOM: comp.a.neural-nets newsgroup 38