PREPOZNAVANJE UZORAKA Metode klasifikacije Metode grupisanja Vanr.prof. Dr. Lejla Banjanović- www.lejla-bm.com 1 Metode klasifikacije Algoritmi klasifikacije vrše raspodjelu uzoraka u odgovarajuće klase ili grupe uzoraka prema klasifikacijskoj šemi. Uzorak može sadržavati jedan ili više atributa (obilježja). Klase uzoraka su skupovi (familije) uzoraka koji djele neke zajedničke osobine. Tačnost klasifikacije uzoraka značajno ovisi o izboru odgovarajućih atributa, koja će omogućiti podjelu uzoraka u klase. 2 1
Metode klasifikacije Razlikujemo dvije šeme klasifikacije: Nadgledane metode klasifikacije zasnivaju se na skupu uzoraka, koji je već ranije klasifikovan ili prepoznat, tj. zna se kojoj klasi pripada. Ovaj skup uzoraka naziva se skup za treniranje, a sam proces se naziva učenje. Nenadgledana šema klasifikacije koristi objektivnu mjeru sličnosti između podataka za klasifikaciju bez unaprijed poznatih klasa. 3 Metode klasifikacije Različiti inteligentni sistemi koriste brojne klasifikacione metode: Stabla odlučivanja Metode grupisanja Bayesov klasifikator Neuronske mreže 4 2
Nadzirano učenje Klasifikacija Regresija Neuronske mreže 5 Nenadzirano učenje Metode grupisanja (klasterizacije) Neki tipovi neuronskih mreža: Kohonenova samoorganizirajuća mreža Hopfieldova mreža 6 3
Metode grupisanja 7 Metode grupisanja Metod udaljenosti Algoritmi grupisanja (grupisanja): Inkrementalno (sekvencijalno) grupisanje Hijerarhijsko grupisanje Aglomerativno grupisanje Divizijsko grupisanje Parcijalno grupisanje (K-means, Fuzzy K- means grupisanje) K-najbliži susjed 8 4
Metode grupisanja Grupisanje podataka (segmentiranje, grupiranje, klasterizacija, grupisanje, eng. clustering) spada u metodu klasifikacije čiji je cilj ''otkrivanje'' organizacije objekata u obliku grupa (eng. clusters), na osnovu kriterija sličnosti ili razlike između objekata, čime se dolazi do korisnih zaključaka o promatranim objektima. Grupisanje (grupiranje) spada u nesuperviziranu metodu klasifikacije. (eng. cluster = grupa) 9 Metode grupisanja Metode grupisanja predstavljaju j skup metodologija za automatsko klasificiranje uzoraka u grupe koristeći mjere asocijacije tako da uzorci u istoj grupi su što više slični a uzorci u različitim grupama što više različiti. Ulaz u sistem klaster analize je skup uzoraka. Izlaz iz klaster analize je broj grupa koji formiraju particiju ili strukturnu particiju u skupu podataka. 10 5
Metode grupisanja Predstavljaju glavni alat koji se koristi u mnogim naučnim č oblastima. Postoji više pravca, gdje se koristi grupisanje, ali su dva posebno interesantna: Redukcija podataka Predikcija (etimacija) zasnovana na grupama 11 Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju usporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje tržišta: grupisanje kupaca sa sličnim ponašanjem na osnovu neke baze podataka koja govori o njihovim osobinama i posljednjim kupovinama Biologija: klasifikacija biljaka i životinja na osnovu njihovih osobina Medicina Socijalna istraživanja 12 6
Definicija grupisanja Vektori se posmatraju kao tačke u l- dimenzionalnom i prostoru i grupa je opisana kao: ''neprekidna oblast prostora sa velikom gustinom tačaka, odvojena od drugih, istih takvih oblasti sa oblastima prostora sa relativnom malom gustinom tačaka''. Grupa opisana na ovakav način se često zove prirodna grupa. 13 Klaster analiza Inteligentni sistemi_3 14 7
Definicija grupisanja Posmatrajmo matematski formu formu grupisanja. Neka je X skup podataka definisan kao: X x1, x2,..., xn Grupisanje skupa X predstavlja njegovu podjelu u k podskupova (grupa) G1,G2,,Gk tako da su zadovoljena sljedeća tri uslova: G, i 1,2,..., k i k i 1 G i X G G, i j, j 1,2,..., k i j 15 Klaster analiza tačaka u 2D prostoru u ovisnosti od broja grupa 16 8
Vrste grupa a) kompaktni klasteri, c) izduženi klasteri, b) sferični i elipsoidalni klasteri 17 Osnovni koraci pri grupisanju podataka Ako pretpostavimo da su svi objekti predstavljeni preko svojih osobina, koje formiraju l-dimenzionalni vektor osobina, osnovni koraci koje ekspert preuzima prilikom grupisanja podataka su: Biranje osobina (značajki) objekata Određivanje mjere sličnosti. Kriterij grupisanja podataka. Algoritam grupisanja podataka. Validacija rezultata Interpretacija rezultata 18 9
Različita rješenja grupisanja podataka Prikaz dva načina grupisanja za dati skup tačaka 19 Metod udaljenosti Mjere udaljenosti (engl. distance measure) pronalaze različitosti, odnosno sličnosti između elemenata ili objekata, unutar skupa podataka. Posmatrano u širem kontekstu, mjera udaljenosti je gradivni element većine metoda grupisanja podataka. 20 10
Mjere različitosti Minkowski metrika 1 p d p d p ( xi, xj) xi, k x j, k K 1 Euklidska udaljenost L1 metrika d d ( x, x ) x x 2 i j i, k j, k K 1 1, d x x x x L i j ik jk k 1 m 1 2 2 21 Mjere sličnosti Unutrašnji proizvod Tanimoto distanca l T u, i i i 1 s x y x y x y s T x, y x x T y y 2 2 x T y 22 11
Algoritmi grupisanja podataka Inkrementalno (sekvencijalno) grupisanje podataka Hijerarhijsko grupisanje podataka Iterativno grupisanje podataka bazirano na kvadratu greške (k-means algoritam, k-mediod algoritam, Fuzzy k-means algoritam) Grupisanje po principu k-najbližih susjeda (eng. k-neighboard) 23 K-means parcijalno grupisanje 24 12
K-means parcijalno grupisanje Grupisanje objekata sličnih karakteristika, koristeći zadati skup atributa t Dva kriterija: primjeri koji pripadaju istoj grupi su međusobno slični primjeri koji pripadaju određenoj grupi značajno se razlikuju od primjera koji pripadaju ostalim grupama Centroid Centroid Centroid 25 K-means parcijalno grupisanje Glavna pretpostavka je da funkcija pripadnosti grupi μij može imati samo vrijednosti 0 ili 1 (eng. hard clustering). ij 0,1, j 1,... k k ij 1 i 1 26 13
K-means parcijalno grupisanje K-means grupisanje predstavlja dijeljenje osnovne populacije u K klastera C1, C2,..., Ck Svaki klaster ima nk uzoraka i vrijedi n N, k 1,... K k Srednja vrijednost u algoritmu odnosi se na "prosječnu lokaciju, tj. srednja vrijednost Mk klastera Ck definiše se kao centroid klastera M 1/ n x n k k k ik i 1 27 K-means parcijalno grupisanje Kvadratna greška klastera Ck je suma kvadratnih distanci izmedju svakog uzorka u klasteru i njegovog centroida (varijacija unutar klastera): n k Ukupna kvadratna greška cijelog prostora koji sadrži svih K klastera je e x M 2 k ik k i1 E n k e 2 2 k k i1 2 28 14
Algoritam K-means parcijalnog grupisanja 1. Izabrati proizvoljno k <N grupa 2. Odrediti središte za svaku od k grupa 3. Ponavljati: pridružiti pomoću funkcije udaljenosti sve elemente populacije njihovim najbližim grupama (proračun se vrši na osnovu centralnih vrijednosti) izračunati novu vrijednost središta grupe za svaku grupu pojedinačno kao prosječnu vrijednost objekata sadržanih unutar svake grupe ponavljati sve dok se mijenjaju vrijednosti središta grupe (stabilnost klasterske pripadnosti, tj. kada nema prebacivanja bilo kojeg uzorka iz jednog klastera u drugi, a što uzrokuje umanjenje ukupne kvadratne greške). 29 K-means parcijalno grupisanje grupisanje svakom slogu dodjeljuje vrijednost pripadnosti klasteru, te opcionalno pridružuje vrijednost udaljenosti od centra klastera. Vrijednosti atributa moraju biti numeričke! Centri rezultujućih grupa sa pripadajućim objektima korištenjem k means algoritma 30 15
K-means parcijalno grupisanje Ekvivalentan algoritmu u domenu neuralnih mreža- Kohenenova mreže Popularnost uslijed: Vremenska kompleksnost: O(nkl), algoritam u linearnoj ovisnosti o veličini seta podataka Prostorna kompleksnost: O(k+n), svi podaci u glavnoj memoriji => pristup brz i algoritam efikasan Neovisnost o redu prezentacije uzoraka 31 K-means parcijalno grupisanje Jednostavan za implementaciju Kompleksnost i vrijeme nije problematično Neizvjesnost sa: podešavanjem broja klastera stop-kriterijumom => može konvergirati lok. minimumu, uslijed lošeg izbora inicijalne particije 32 16
K-means parcijalno grupisanje Senzitivan na šum i izuzetke!!! Preporuka: K-mediods: umjesto mean-a, koristi najčešće locirani centralni objekt u klasteru. nije osjetljiv na šum i izuzetke. 33 Fuzzy grupisanje 34 17
Fuzzy k - means algoritam Fuzzy k - means algoritam je dizajniran tako da proizvede grupe, gdje je za svaki objekat proračunata mjera pripadnosti pojedinoj grupi. Na početku ovog algoritma pretpostavljamo oblik i broj grupa. 35 Fuzzy k - means algoritam Neka je X x,..., skup od N vektora, koji 1 xn predstavljaju podatke. Fuzzy clustering od X u c clustera se sastoji od funkcija,..., 1 c, pri čemu vrijedi : X 0,1 i ( x) 1 i x X za svako. Ove funkcije se nazivaju funkcijama pripadnosti i imaju vrijednost između 0 i 1. Fc-M algoritam je dizajniran tako da proizvede fuzzy clustere na isti način kao što se podrazumijeva da k- means proizvede tzv. ''hard'' clustere, preko minimizacije funkcije cilja: i m 2ik xk i 0 i k 36 18
Fuzzy k - means algoritam i predstavlja vrijednost i-te funkcije pripadnosti u k-toj tački podataka. v,..., vektori predstavljaju centre 1 vc clustera. Da bi se minimizirala funkcija cilja, centri clustera i funkcije pripadnosti su dizajnirane tako da se najveća pripadnost javlja u tačkama blizu odgovarajućih centara clustera. m se naziva eksponencijalna težina i koristi se da priguši šum u podacima. 37 Fuzzy k - means algoritam Algoritam radi minimizaciju funkcije cilja koja je postignuta na sljedeći način: Centri klastera v m x i ik k ik k k Funkcije pripadnosti 2 1/ xk i ik 2 1/ xk j j m 1/ m1 1/ m1 38 19
Fuzzy k - means algoritam 1. Slučajno se bira k centara clustera 2. Izračuna se Euklidova distancu izmedju centara clustera i svakog vektora 3. Uzima se da m u formuli ima vrijednost 2 4. Izračuna se vrijednost funkcije pripadnosti 5. Dodijele se vektori onom clusteru za koji funkcija pripadnosti ima najveću vrijednost 6. Ponovo se računaju centri klastera i algoritam ponavlja iterativno sa korakom 2 sve dok stop-kriterij ne bude ispunjen 39 Primjer 1.5 Tip Standardizirani podatak o cijeni Standandizirani podatak o dužini kočionog puta Audi 0,866 0,208 BMW 0,496-0,602 Corvette 1,235-1,811 Ford -0,706-1,542 Honda -0,429 0,410 Mazda 0,126 0,679 Mercedes 1,051 0,006 Nissan -0,429 0,073 Porcshe 3,454-2,215 Toyota -0,059 1,218 VW -0,706-0,128 Volvo 0,219 0,612 1 0.5 0-0.5-1 -1.5-2 Vrijednosti testnih parametara grupisanih po tipu vozila -2.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Primjena K-means algoritma za k=3 grupa i matricu podataka X 40 20
Primjer 1.5 Tip Standardizirani podatak o cijeni Standandizirani podatak o dužini kočionog puta Audi 0,866 0,208 BMW 0,496-0,602 Corvette 1,235-1,811 Ford -0,706-1,542 Honda -0,429 0,410 Mazda 0,126 0,679 Mercedes 1,051 0,006 Nissan -0,429 0,073 Porcshe 3,454-2,215 Toyota -0,059 1,218 VW -0,706-0,128 Volvo 0,219 0,612 1 0.5 0-0.5-1 -1.5-2 Vrijednosti testnih parametara grupisanih po tipu vozila -2.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Primjena FKM algoritma za k=3 grupa i matricu podataka X 41 Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Mapa okruženja mobilnog robota korištena kao ulaz za grupisanje 42 21
Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Rezultati primjene k - means algoritma na robotsku mapu, 6 iteracija 43 Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Rezultati primjene fuzzy k - means algoritma na robotsku mapu, 65 iteracija 44 22
Primjena fuzzy K meansgrupisanja Automatizacija kuća i zgrada Korištenjem uzoraka omogućava se unapređenje sistema upravljanja sa osobenostima predikcije. Uzorci predstavljaju zauzetost prostora ukućanima u predhodnih par godina u cilju automatske kontrole temperature Metode bazirane na Fuzzy C-means i exclusive Self-Organizing Maps daju najbolje perfomase u upravljanju. 45 Zaključak klaster analize Algoritmi grupisanja se razlikuju u mnogim aspektima: brzina učenja, količina podataka za treniranje, brzina klasifikacije, robusnost, itd. 46 23
Zaključak klaster analize K-means metoda je jednostavna, nije vremenski zahtjevna i nezavnisna je od rasporeda uzoraka. Negativne strane se odnose na činjenicu da sama selekcija broja klastera utiče na rezultat. Kao alternativna metoda preporučuje K-mediods, koja umjesto mean-a, koristi najčešće locirani centar objekt u klasteru i nije osjetljiv na šum. Fuzzy K-means grupisanje pri istom ulaznom setu podataka vrši bolje grupisanje od K-means algoritma. Potrebno je više vremena za FCM grupisanje nego za K-means grupisanje istog seta podataka. 47 Zaključak klaster analize Nema najboljeg j algoritma grupisanja podataka. Preporuka: isprobati više algoritama na datom skupu podataka!!! 48 24