KLASTERIZACIJA JELENA JOVANOVIĆ. Web:

Σχετικά έγγραφα
Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

numeričkih deskriptivnih mera.

Računarska grafika. Rasterizacija linije

5. Karakteristične funkcije

IZVODI ZADACI (I deo)

Ispitivanje toka i skiciranje grafika funkcija

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

Računarska grafika. Rasterizacija linije

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

SISTEMI NELINEARNIH JEDNAČINA

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

3.1 Granična vrednost funkcije u tački

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

Zavrxni ispit iz Matematiqke analize 1

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Teorijske osnove informatike 1

Elementi spektralne teorije matrica

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

41. Jednačine koje se svode na kvadratne

APROKSIMACIJA FUNKCIJA

Mašinsko učenje. Regresija.

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

III VEŽBA: FURIJEOVI REDOVI

18. listopada listopada / 13

Trigonometrijske nejednačine

Uvod Teorija odlučivanja je analitički i sistematski pristup proučavanju procesa donošenja odluka Bez obzira o čemu donosimo odluku imamo 6 koraka za

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

ELEKTROTEHNIČKI ODJEL

Betonske konstrukcije 1 - vežbe 3 - Veliki ekscentricitet -Dodatni primeri

Osnovne teoreme diferencijalnog računa

Obrada signala

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

radni nerecenzirani materijal za predavanja

Operacije s matricama

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

Funkcije dviju varjabli (zadaci za vježbu)

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

Algoritmi i strukture podataka - 1.cas

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

IZVODI ZADACI (I deo)

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Testiranje statistiqkih hipoteza

Numerička matematika 2. kolokvij (1. srpnja 2009.)

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

MATEMATIKA 2. Grupa 1 Rexea zadataka. Prvi pismeni kolokvijum, Dragan ori

7 Algebarske jednadžbe

Skup svih mogućih ishoda datog opita, odnosno skup svih elementarnih događaja se najčešće obeležava sa E. = {,,,... }

RIJEŠENI ZADACI I TEORIJA IZ

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Elektrotehnički fakultet univerziteta u Beogradu 17.maj Odsek za Softversko inžinjerstvo

4 Numeričko diferenciranje

SKUPOVI I SKUPOVNE OPERACIJE

RAČUNSKE VEŽBE IZ PREDMETA POLUPROVODNIČKE KOMPONENTE (IV semestar modul EKM) IV deo. Miloš Marjanović

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

ASIMPTOTE FUNKCIJA. Dakle: Asimptota je prava kojoj se funkcija približava u beskonačno dalekoj tački. Postoje tri vrste asimptota:

Konstruisati efikasan algoritam znači dati skup preciznih uputstava kako doći do rešenja zadatog problema Algoritmi se mogu opisivati:

Kaskadna kompenzacija SAU

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

Zadaci iz trigonometrije za seminar

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

( , 2. kolokvij)

PRIMJER 3. MATLAB filtdemo

METODA SEČICE I REGULA FALSI

Riješeni zadaci: Limes funkcije. Neprekidnost

PID: Domen P je glavnoidealski [PID] akko svaki ideal u P je glavni (generisan jednim elementom; oblika ap := {ab b P }, za neko a P ).

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

Matematka 1 Zadaci za drugi kolokvijum

Eliminacijski zadatak iz Matematike 1 za kemičare

Jednodimenzionalne slučajne promenljive

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

Dvanaesti praktikum iz Analize 1

Prvi pismeni zadatak iz Analize sa algebrom novembar Ispitati znak funkcije f(x) = tgx x x3. 2. Naći graničnu vrednost lim x a

Inženjerska grafika geometrijskih oblika (5. predavanje, tema1)

Više dokaza jedne poznate trigonometrijske nejednakosti u trokutu

1 Afina geometrija. 1.1 Afini prostor. Definicija 1.1. Pod afinim prostorom nad poljem K podrazumevamo. A - skup taqaka

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

OBLAST DEFINISANOSTI FUNKCIJE (DOMEN) Pre nego što krenete sa proučavanjem ovog fajla, obavezno pogledajte fajl ELEMENTARNE FUNKCIJE, jer se na

Konstruisanje. Dobro došli na... SREDNJA MAŠINSKA ŠKOLA NOVI SAD DEPARTMAN ZA PROJEKTOVANJE I KONSTRUISANJE

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

INTELIGENTNO UPRAVLJANJE

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

TRIGONOMETRIJSKE FUNKCIJE I I.1.

Matematika 4. t x(u)du + 4. e t u y(u)du, t e u t x(u)du + Pismeni ispit, 26. septembar e x2. 2 cos ax dx, a R.

4.7. Zadaci Formalizam diferenciranja (teorija na stranama ) 343. Znajući izvod funkcije x arctg x, odrediti izvod funkcije x arcctg x.

1. zadatak , 3 Dakle, sva kompleksna re{ewa date jedna~ine su x 1 = x 2 = 1 (dvostruko re{ewe), x 3 = 1 + i

Transcript:

KLASTERIZACIJA JELENA JOVANOVIĆ Email: jeljov@gmail.com Web: http://jelenajovanovic.net

PREGLED PREDAVANJA Šta je klasterizacija? Koje su oblasti/primeri primene? Klasterizacija primenom K-Means algoritma Klasterizacija primenom EM algoritma

ŠTA JE KLASTERIZACIJA? Klasterizacija je jedan od oblika nenadgledanog m. učenja ono što je raspoloživo od podataka su podaci o instancama koje je potrebno na neki način grupisati; ne posedujemo podatke o poželjnoj / ispravnoj grupi (klasi) za date instance

ŠTA JE KLASTERIZACIJA? Klasterizacija je zadatak grupisanja instanci, tako da za svaku instancu važi da je sličnija instancama iz svoje grupe (klastera), nego instancama iz drugih grupa (klastera)

PROCENA SLIČNOSTI INSTANCI Sličnost instanci se procenjuje primenom neke od mera za računanje: sličnosti (npr. Kosinusna sličnost ili koeficijent korelacije) ili udaljenosti dve instance (npr. Euklidska ili Manhattan udaljenost)

PROCENA SLIČNOSTI INSTANCI Euklidska udaljenost: Manhattan udaljenost: p broj atributa kojima su instance opisane Izvor slike: http://goo.gl/9kgb4a

PROCENA REZULTATA KLASTERIZACIJE Za razliku od klasifikacije, ovde nemamo tačno rešenje ocena uspešnosti algoritma je dosta teža nego kod klasifikacije pogodnost rešenja zavisi od domena i slučaja primene jedno isto rešenje može biti različito ocenjeno u različitim slučajevima primene zahteva angažovanje domenskih eksperata koji će evaluirati rešenje

Primer različitih dobrih rešenja za isti polazni skup podataka

OBLASTI PRIMENE Segmentacija tržišta Uočavanje grupa u društvenim mrežama Identifikacija korisnika koje karakterišu slični oblici interakcije sa sadržajima nekog Web sajta/aplikacije Grupisanje objekata (npr., slika/dokumenata) radi lakše i efektivnije pretrage

K-MEANS ALGORITAM

K-MEANS Jedan od najpoznatijih i najjednostavnijih algoritama klasterizacije Najlakše ga je razumeti na primeru, pa ćemo prvo razmotriti jedan primer Primer je preuzet iz kursa: https://www.coursera.org/course/ml

K-MEANS ALGORITAM PRIMER Pretpostavimo da su ovo ulazni podacikojima raspolažemo, opisani vrednostima dva atributa

K-MEANS: PRIMER Inicijalizacija: 1) definisanje broja klastera, K=2 2) inicijalni izbor težišta klastera metodom slučajnog izbora

K-MEANS: PRIMER Iteracija 1, korak 1: razvrstavanje instanci po klasterima na osnovu udaljenosti od težišta klastera

K-MEANS: PRIMER Iteracija 1, korak 2: određivanje novog težišta za svaki klaster, na osnovu proseka vrednosti instanci u datom klasteru

K-MEANS: PRIMER Iteracija 2, korak 1: (ponovno) razvrstavanje instanci po klasterima na osnovu udaljenosti od težišta klastera

K-MEANS: PRIMER Iteracija 2, korak 2: ponovno određivanje novog težišta za svaki klaster

K-MEANS: PRIMER Iteracija 3, korak 1: (ponovno) razvrstavanje instanci po klasterima na osnovu udaljenosti od težišta klastera

K-MEANS: PRIMER Iteracija 3, korak 2: ponovno određivanje novog težišta za svaki klaster

K-MEANS: PRIMER Algoritam konvergira: dalje iteracije neće dovesti do značajnijih promena i proces se zaustavlja

K-MEANS: ALGORITAM Ulaz: skup za trening sa m instanci; svaka instanca u skupu je vektor opisan sa n atributa (x 1, x 2,, x n ) K - broj klastera max - max broj iteracija (opcioni parametar)

K-MEANS: ALGORITAM Koraci: 1) Inicijalni izbor težišta klastera, slučajnim izborom težišta se biraju iz skupa instanci za trening, tj. K instanci za trening se nasumično izabere i proglasi za težišta 2) Ponoviti 1) Grupisanje po klasterima: za svaku instancu iz skupa za trening, i = 1,m, identifikovati najbliže težište i dodeliti instancu klasteru kome to težište pripada 2) Pomeranje težišta: za svaki klaster izračunati novo težište uzimajući prosek instanci koje su dodeljene tom klasteru dok algoritam ne konvergira ili broj iteracija <= max

K-MEANS ALGORITAM: FUNKCIJA KOŠTANJA Smisao K-means algoritma je minimizacija funkcije koštanja J (cost function): x (i) i-ta instanca u skupu podataka za trening, i=1,m μ c(i) težište klastera u koji je instanca x (i) trenutno raspoređena c (i) indeks klastera u koji je instanca x (i) trenutno raspoređena μ j težište klastera j, j=1,k Ova funkcija se zove i funkcija distorzije (distortion function)

K-MEANS ALGORITAM: FUNKCIJA KOŠTANJA Minimizacija funkcije koštanja J kroz K-means algoritam: faza Grupisanja po klasterima minimizuje J po parametrima c (1),,c (m), držeći μ 1,, μ K fiksnim faza Pomeranja težišta minimizuje J po parametrima μ 1,, μ K, držeći c (1),,c (m) fiksnim

K-MEANS: EVALUACIJA Kriterijumi za procenu kvaliteta kreiranih klastera: Međusobna udaljenosttežišta što su težišta dalje jedno od drugog, to je stepen preklapanja klastera manji, i njihov kvalitet viši St. devijacija pojedinačnih instanci u odnosu na težište što je st. devijacija manja, to su instance tešnje grupisane oko težišta i klasteri se smatraju boljim Suma kvadrata unutar klastera (within cluster sum of squares) suma kvadrata odstupanja instanci u okviru klastera od težišta klastera

K-MEANS: PROBLEM INICIJALNOG IZBORA TEŽIŠTA Zavisno od inicijalnog izbora težišta: K-means algoritam može konvergirati brže ili sporije; Takodje, može upasti u tzv. lokalni minimum i dati loše rešenje reč je o lokalnom min. funkcije koštanja Idealna inicijalizacija Inicijalizacija koja vodi u lokalne minimume

K-MEANS: VIŠESTRUKA NASUMIČNA INICIJALIZACIJA Omogućuje da se izbegnu situacije koje K-means dovode u lokalni minimum Sastoji se u sledećem: for i = 1 to n { //n obično uzima vrednosti 50-1000 } Nasumično odabrati inicijalni skup težišta; Izvršiti K-Means algoritam; Izračunati funkciju koštanja (cost function) Izabrati instancu algoritma koja daje najmanju vrednost za f. koštanja Ovaj pristup daje dobre rezultate ukoliko je broj klastera relativno mali (2-10); za veći broj klastera ne bi ga trebalo koristiti Alternativa: K-means++ algoritam

K-MEANS: KAKO ODREDITI K? Kako odrediti broj klastera K? U slučaju da posedujemo znanje o fenomenu/pojavi koju podaci opisuju Pretpostaviti broj klastera (K) na osnovu domenskog znanja Testirati model sa K-1, K, K+1 klastera i uporediti grešku* Ukoliko ne posedujemo znanje o fenomenu/pojavi Krenuti od malog broja klastera i u više iteracija testirati model uvek sa jednim klasterom više U svakoj od iteracija, uporediti grešku* tekućeg i prethodnog modela i kad smanjenje greške postaje zanemarljivo, prekinuti postupak *Na primer, korišćenjem within cluster sum of squared errors metrike

K-MEANS: KAKO ODREDITI K? Kada ne posedujemo znanje o fenomenu/pojavi koja je u osnovi zadatka klasterizacije Optimalan broj klastera (K) Izvor: http://i.stack.imgur.com/bzwby.png

EXPECTATION MAXIMIZATION (EM) ALGORITAM

PROBABILISTIČKA KLASTERIZACIJA EM klasterizacija spada u grupu probabilističkih pristupa klasterizaciji Osnovna ideja: instance ne pripadaju jednom i samo jednom klasteru, već svaka instanca sa određenom verovatnoćom pripada svakom od klastera

PROBABILISTIČKA KLASTERIZACIJA Ovaj oblik klasterizacije podrazumeva: Svaki klaster je određen/opisan raspodelom verovatnoća to može biti jedna raspodela, zajednička za sve atribute kojima su instance opisane, ili više, po jedna za svaki od atributa ove raspodele određuju verovatnoću da instance koja pripadaju datom klasteru bude opisane određenim skupom vrednosti (atributa) Postoji, takođe, i raspodela verovatnoća koja karakteriše pripadanost klasteru tzv. prior probability

PROBABILISTIČKA KLASTERIZACIJA Razmotrimo najjednostavniji oblik prob. klasterizacije: Sve instance su opisane jednim numeričkim atributom koji ima Normalnu raspodelu u svim klasterima (ukupno k klastera) Svaki klaster (C i ) ima specifične vrednosti parametara Normale raspodele srednje vrednosti (μ i ) i st. devijacije (σ i ) p i predstavlja tzv prior probability i-tog klastera (C i ) tj. verovatnoću da nasumice izabrana instanca pripada klasteru C i

PROBABILISTIČKA KLASTERIZACIJA Razmotrimo najjednostavniji oblik prob. klast. (nastavak): Pretpostavimo da smo dobili skup instanci za koje znamo da dolaze iz opisanih k klastera, ali ne znamo iz kojih, niti znamo parametre modela (µ i, σ i, p i, i=1,k) Zadatak / problem koji treba rešiti: odrediti parametre klastera (µ i,σ i, p i, i=1,k) za svaku instancu odrediti verovatnoću pripadnosti svakom od k klastera

EM ALGORITAM Opisani problem se može rešiti primenom postupka koji predstavlja generalizacijuk-means algoritma: 1) Inicijalno, definisati broj klastera (k) i nasumice izabrati vrednosti parametara modela (µ i, σ i, p i, i=1,k) 2) Za date vrednosti parametara, za svaku instancu iz dataset-a, izračunati verovatnoću pripadanja svakom od klastera 3) Na osnovu izračunatih verovatnoća pripadnosti klasterima, odrediti nove vrednosti parametara modela Iterativno ponavljati korake 2) i 3) dok vrednosti parametara ne počnu da konvergiraju Opisani postupak predstavlja suštinu EM algoritma

EM ALGORITAM Sastoji se iz dva osnovna koraka: E (expectation) korak u ovom koraku podrazumevamo da znamo vrednosti parametara modela i na osnovu njih, za svaku instancu, računamo verovatnoću pripadanja svakom od klastera M (maximization) korak na osnovu datih instanci, računamo (ponovo) vrednosti parametara modela; maksimizacija se odnosi na usklađivanje (parametara) modela sa datim podacima Ovi koraci se ponavljaju sve dok algoritam ne počne da konvergira

EM ALGORITAM: INICIJALIZACIJA Središta klastera na osnovu inicijalno postavljenih vrednosti parametara modela; pretpostavka: k=2 Primer je preuzet iz AI kursa: https://www.udacity.com/course/cs271

EM ALGORITAM: E KORAK Za svaku instancu iz dataset-a x j (j=1,n), računamo očekivanje da ta instanca pripada i-tom klasteru (C i, i=1,k) e 01 = p 0 P x 1 C 0 P x 1 C 0 se računa primenom funkcije Normalne raspodele f(x; µ, σ) Podsećanje: pretpostavka je da su nam parametri µ i, σ i, p i poznati za svaki klaster, tj svako i, i=1,k

EM ALGORITAM: E KORAK Debljina linije ukazuje na verovatnoću pripadnosti određenom klasteru tj. odražava izračunatu vrednostza e ij

EM ALGORITAM: M KORAK Određuju se nove vrednosti parametara modela: prior probability: p 0 = ; <= 1 > srednja vrednost: μ 0 = = ; <= @ = = ; <= varijansa: σ i 2 = ; <= = (@ = AB < ) C ; <= =

EM ALGORITAM: M KORAK Središta klastera se pomeraju na osnovu novo izračunatih vrednostiparametara modela

EM ALGORITAM: KONVERGENCIJA Koraci algoritma se ponavljaju sve dok ima značajne promene (tj. porasta) loga ukupnog očekivanja modela (overall log-likelihood): log P x = log (p 0 P(x C 0 )) 0 Tipično, ova vrednost intenzivno raste tokom prvih nekoliko iteracija algoritma, a zatim vrlo brzo dolazi u stanje gde maltene nema promene

EM ALGORITAM: KONVERGENCIJA Stanje konvergencije (parametara) modela

EM ALGORITAM Za EM algoritam se pokazuje da sigurno konvergira ka maksimumu log-likelihood funkcije Međutim, reč je o lokalnom maksimumu, koji ne mora biti i globalni maksimum Da bi se obezbedilo dostizanje globalnog maksimuma, potrebno je celu proceduru ponoviti više puta, uz različit izbor inicijalnih vrednosti parametara modela Na kraju se, naravno, bira konfiguracija koja generiše najvišu vrednost log-likelihood funkcije

EM ALGORITAM Mi smo razmatrali najjednostavniji slučaj primene EM algoritma; ali EM se može na isti način primeniti i na složenije probleme Umesto jednog atributa, svaka instanca može biti opisana proizvoljnim brojem atributa, pod uslovom da su atributi međusobno nezavisni u tom slučaju, verovatnoće atributa se množe kako bi se dobila ukupna verovatnoća za svaku instancu Atributi ne moraju biti numerički, već mogu biti i nominalni u tom slučaju, Normalna raspodela se ne može primeniti; nominalni atribut sa v mogućih vrednostise predstavlja preko v atributa koji predstavljaju verovatnoće vrednostinominalnog atributa

EM ALGORITAM Normalna raspodela je najčešće dobar izbor za numeričke atribute, ali ima situacija kad to nije slučaj: Numerički atributi koji imaju definisanu donju, ali ne i gornju granicu (npr. vremenski period); u tom slučaju se preporučuje log-normalna raspodela Numerički atributi koji imaju definisanu i gornju i donju granicu (npr. godine) se modeluju preko log-odds raspodele Atributi čije su vrednosti celi brojevi (ne decimalni), najbolje se modeluju preko Poisson-ove raspodele

ZAHVALNICA I PREPORUKA Coursera: https://www.coursera.org/learn/machine-learning Stanford YouTube channel: http://www.youtube.com/view_play_list?p=a89dcfa6adace599

ZAHVALNICA I PREPORUKA URL: https://www.udacity.com/course/intro-to-artificial-intelligence--cs271

(Anonimni) upitnik za vaše komentare, predloge, kritike: http://goo.gl/cqdp3i