PREPOZNAVANJE UZORAKA

Σχετικά έγγραφα
M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

INTELIGENTNO UPRAVLJANJE

Operacije s matricama

3.1 Granična vrednost funkcije u tački

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

numeričkih deskriptivnih mera.

Kaskadna kompenzacija SAU

Dijagonalizacija operatora

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

18. listopada listopada / 13

Teorijske osnove informatike 1

ELEKTROTEHNIČKI ODJEL

Elementi spektralne teorije matrica

SISTEMI NELINEARNIH JEDNAČINA

Ispitivanje toka i skiciranje grafika funkcija

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

RIJEŠENI ZADACI I TEORIJA IZ

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

PRIMJER 3. MATLAB filtdemo

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

III VEŽBA: FURIJEOVI REDOVI

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Funkcije dviju varjabli (zadaci za vježbu)

1 Promjena baze vektora

Zavrxni ispit iz Matematiqke analize 1

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

APROKSIMACIJA FUNKCIJA

7 Algebarske jednadžbe

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

Matematičke metode u marketingumultidimenzionalno skaliranje. Lavoslav ČaklovićPMF-MO

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

- pravac n je zadan s točkom T(2,0) i koeficijentom smjera k=2. (30 bodova)

Sortiranje prebrajanjem (Counting sort) i Radix Sort

Računarska grafika. Rasterizacija linije

Riješeni zadaci: Nizovi realnih brojeva

Osnovne teoreme diferencijalnog računa

KONVEKSNI SKUPOVI. Definicije: potprostor, afin skup, konveksan skup, konveksan konus. 1/5. Back FullScr

5 Ispitivanje funkcija

KLASTERIZACIJA JELENA JOVANOVIĆ. Web:

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Algoritmi i strukture podataka - 1.cas

MATEMATIKA Pokažite da za konjugiranje (a + bi = a bi) vrijedi. a) z=z b) z 1 z 2 = z 1 z 2 c) z 1 ± z 2 = z 1 ± z 2 d) z z= z 2

Zadaci iz Osnova matematike

Numerička matematika 2. kolokvij (1. srpnja 2009.)

Riješeni zadaci: Limes funkcije. Neprekidnost

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

1 Afina geometrija. 1.1 Afini prostor. Definicija 1.1. Pod afinim prostorom nad poljem K podrazumevamo. A - skup taqaka

Linearna algebra 2 prvi kolokvij,

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Inženjerska grafika geometrijskih oblika (5. predavanje, tema1)

IZVODI ZADACI (I deo)

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

Obrada signala

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

Program testirati pomoću podataka iz sledeće tabele:

FTN Novi Sad Katedra za motore i vozila. Teorija kretanja drumskih vozila Vučno-dinamičke performanse vozila: MAKSIMALNA BRZINA

VJEŽBE 3 BIPOLARNI TRANZISTORI. Slika 1. Postoje npn i pnp bipolarni tranziostori i njihovi simboli su dati na slici 2 i to npn lijevo i pnp desno.

NOMENKLATURA ORGANSKIH SPOJEVA. Imenovanje aromatskih ugljikovodika

TRIGONOMETRIJSKE FUNKCIJE I I.1.

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

Linearna algebra 2 prvi kolokvij,

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

Računarska grafika. Rasterizacija linije

Ispit održan dana i tačka A ( 3,3, 4 ) x x + 1

5. Karakteristične funkcije

Neka su A i B skupovi. Kažemo da je A podskup od B i pišemo A B ako je svaki element skupa A ujedno i element skupa B. Simbolima to zapisujemo:

SOPSTVENE VREDNOSTI I SOPSTVENI VEKTORI LINEARNOG OPERATORA I KVADRATNE MATRICE

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

radni nerecenzirani materijal za predavanja

LINEARNA ALGEBRA 1, ZIMSKI SEMESTAR 2007/2008 PREDAVANJA: NENAD BAKIĆ, VJEŽBE: LUKA GRUBIŠIĆ I MAJA STARČEVIĆ

GLAZBENA UMJETNOST. Rezultati državne mature 2010.

Matematička analiza 1 dodatni zadaci

Izbor statističkih testova Ana-Maria Šimundić

π π ELEKTROTEHNIČKI ODJEL i) f (x) = x 3 x 2 x + 1, a = 1, b = 1;

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

Dvanaesti praktikum iz Analize 1

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

1.4 Tangenta i normala

10. STABILNOST KOSINA

Mašinsko učenje. Regresija.

M086 LA 1 M106 GRP Tema: Uvod. Operacije s vektorima.

Algoritmi i strukture podataka (450)

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Uvod u teoriju brojeva

Geometrija (I smer) deo 1: Vektori

Uvod u neparametarske testove

Testiranje statistiqkih hipoteza

POTPUNO RIJEŠENIH ZADATAKA PRIRUČNIK ZA SAMOSTALNO UČENJE

Transcript:

PREPOZNAVANJE UZORAKA Metode klasifikacije Metode grupisanja Vanr.prof. Dr. Lejla Banjanović- www.lejla-bm.com 1 Metode klasifikacije Algoritmi klasifikacije vrše raspodjelu uzoraka u odgovarajuće klase ili grupe uzoraka prema klasifikacijskoj šemi. Uzorak može sadržavati jedan ili više atributa (obilježja). Klase uzoraka su skupovi (familije) uzoraka koji djele neke zajedničke osobine. Tačnost klasifikacije uzoraka značajno ovisi o izboru odgovarajućih atributa, koja će omogućiti podjelu uzoraka u klase. 2 1

Metode klasifikacije Razlikujemo dvije šeme klasifikacije: Nadgledane metode klasifikacije zasnivaju se na skupu uzoraka, koji je već ranije klasifikovan ili prepoznat, tj. zna se kojoj klasi pripada. Ovaj skup uzoraka naziva se skup za treniranje, a sam proces se naziva učenje. Nenadgledana šema klasifikacije koristi objektivnu mjeru sličnosti između podataka za klasifikaciju bez unaprijed poznatih klasa. 3 Metode klasifikacije Različiti inteligentni sistemi koriste brojne klasifikacione metode: Stabla odlučivanja Metode grupisanja Bayesov klasifikator Neuronske mreže 4 2

Nadzirano učenje Klasifikacija Regresija Neuronske mreže 5 Nenadzirano učenje Metode grupisanja (klasterizacije) Neki tipovi neuronskih mreža: Kohonenova samoorganizirajuća mreža Hopfieldova mreža 6 3

Metode grupisanja 7 Metode grupisanja Metod udaljenosti Algoritmi grupisanja (grupisanja): Inkrementalno (sekvencijalno) grupisanje Hijerarhijsko grupisanje Aglomerativno grupisanje Divizijsko grupisanje Parcijalno grupisanje (K-means, Fuzzy K- means grupisanje) K-najbliži susjed 8 4

Metode grupisanja Grupisanje podataka (segmentiranje, grupiranje, klasterizacija, grupisanje, eng. clustering) spada u metodu klasifikacije čiji je cilj ''otkrivanje'' organizacije objekata u obliku grupa (eng. clusters), na osnovu kriterija sličnosti ili razlike između objekata, čime se dolazi do korisnih zaključaka o promatranim objektima. Grupisanje (grupiranje) spada u nesuperviziranu metodu klasifikacije. (eng. cluster = grupa) 9 Metode grupisanja Metode grupisanja predstavljaju j skup metodologija za automatsko klasificiranje uzoraka u grupe koristeći mjere asocijacije tako da uzorci u istoj grupi su što više slični a uzorci u različitim grupama što više različiti. Ulaz u sistem klaster analize je skup uzoraka. Izlaz iz klaster analize je broj grupa koji formiraju particiju ili strukturnu particiju u skupu podataka. 10 5

Metode grupisanja Predstavljaju glavni alat koji se koristi u mnogim naučnim č oblastima. Postoji više pravca, gdje se koristi grupisanje, ali su dva posebno interesantna: Redukcija podataka Predikcija (etimacija) zasnovana na grupama 11 Primjena metoda grupisanja Inžinjerstvo: analiza podataka u cilju usporedbe i primjene u robotici,... Inteligentna analiza Ispitivanje tržišta: grupisanje kupaca sa sličnim ponašanjem na osnovu neke baze podataka koja govori o njihovim osobinama i posljednjim kupovinama Biologija: klasifikacija biljaka i životinja na osnovu njihovih osobina Medicina Socijalna istraživanja 12 6

Definicija grupisanja Vektori se posmatraju kao tačke u l- dimenzionalnom i prostoru i grupa je opisana kao: ''neprekidna oblast prostora sa velikom gustinom tačaka, odvojena od drugih, istih takvih oblasti sa oblastima prostora sa relativnom malom gustinom tačaka''. Grupa opisana na ovakav način se često zove prirodna grupa. 13 Klaster analiza Inteligentni sistemi_3 14 7

Definicija grupisanja Posmatrajmo matematski formu formu grupisanja. Neka je X skup podataka definisan kao: X x1, x2,..., xn Grupisanje skupa X predstavlja njegovu podjelu u k podskupova (grupa) G1,G2,,Gk tako da su zadovoljena sljedeća tri uslova: G, i 1,2,..., k i k i 1 G i X G G, i j, j 1,2,..., k i j 15 Klaster analiza tačaka u 2D prostoru u ovisnosti od broja grupa 16 8

Vrste grupa a) kompaktni klasteri, c) izduženi klasteri, b) sferični i elipsoidalni klasteri 17 Osnovni koraci pri grupisanju podataka Ako pretpostavimo da su svi objekti predstavljeni preko svojih osobina, koje formiraju l-dimenzionalni vektor osobina, osnovni koraci koje ekspert preuzima prilikom grupisanja podataka su: Biranje osobina (značajki) objekata Određivanje mjere sličnosti. Kriterij grupisanja podataka. Algoritam grupisanja podataka. Validacija rezultata Interpretacija rezultata 18 9

Različita rješenja grupisanja podataka Prikaz dva načina grupisanja za dati skup tačaka 19 Metod udaljenosti Mjere udaljenosti (engl. distance measure) pronalaze različitosti, odnosno sličnosti između elemenata ili objekata, unutar skupa podataka. Posmatrano u širem kontekstu, mjera udaljenosti je gradivni element većine metoda grupisanja podataka. 20 10

Mjere različitosti Minkowski metrika 1 p d p d p ( xi, xj) xi, k x j, k K 1 Euklidska udaljenost L1 metrika d d ( x, x ) x x 2 i j i, k j, k K 1 1, d x x x x L i j ik jk k 1 m 1 2 2 21 Mjere sličnosti Unutrašnji proizvod Tanimoto distanca l T u, i i i 1 s x y x y x y s T x, y x x T y y 2 2 x T y 22 11

Algoritmi grupisanja podataka Inkrementalno (sekvencijalno) grupisanje podataka Hijerarhijsko grupisanje podataka Iterativno grupisanje podataka bazirano na kvadratu greške (k-means algoritam, k-mediod algoritam, Fuzzy k-means algoritam) Grupisanje po principu k-najbližih susjeda (eng. k-neighboard) 23 K-means parcijalno grupisanje 24 12

K-means parcijalno grupisanje Grupisanje objekata sličnih karakteristika, koristeći zadati skup atributa t Dva kriterija: primjeri koji pripadaju istoj grupi su međusobno slični primjeri koji pripadaju određenoj grupi značajno se razlikuju od primjera koji pripadaju ostalim grupama Centroid Centroid Centroid 25 K-means parcijalno grupisanje Glavna pretpostavka je da funkcija pripadnosti grupi μij može imati samo vrijednosti 0 ili 1 (eng. hard clustering). ij 0,1, j 1,... k k ij 1 i 1 26 13

K-means parcijalno grupisanje K-means grupisanje predstavlja dijeljenje osnovne populacije u K klastera C1, C2,..., Ck Svaki klaster ima nk uzoraka i vrijedi n N, k 1,... K k Srednja vrijednost u algoritmu odnosi se na "prosječnu lokaciju, tj. srednja vrijednost Mk klastera Ck definiše se kao centroid klastera M 1/ n x n k k k ik i 1 27 K-means parcijalno grupisanje Kvadratna greška klastera Ck je suma kvadratnih distanci izmedju svakog uzorka u klasteru i njegovog centroida (varijacija unutar klastera): n k Ukupna kvadratna greška cijelog prostora koji sadrži svih K klastera je e x M 2 k ik k i1 E n k e 2 2 k k i1 2 28 14

Algoritam K-means parcijalnog grupisanja 1. Izabrati proizvoljno k <N grupa 2. Odrediti središte za svaku od k grupa 3. Ponavljati: pridružiti pomoću funkcije udaljenosti sve elemente populacije njihovim najbližim grupama (proračun se vrši na osnovu centralnih vrijednosti) izračunati novu vrijednost središta grupe za svaku grupu pojedinačno kao prosječnu vrijednost objekata sadržanih unutar svake grupe ponavljati sve dok se mijenjaju vrijednosti središta grupe (stabilnost klasterske pripadnosti, tj. kada nema prebacivanja bilo kojeg uzorka iz jednog klastera u drugi, a što uzrokuje umanjenje ukupne kvadratne greške). 29 K-means parcijalno grupisanje grupisanje svakom slogu dodjeljuje vrijednost pripadnosti klasteru, te opcionalno pridružuje vrijednost udaljenosti od centra klastera. Vrijednosti atributa moraju biti numeričke! Centri rezultujućih grupa sa pripadajućim objektima korištenjem k means algoritma 30 15

K-means parcijalno grupisanje Ekvivalentan algoritmu u domenu neuralnih mreža- Kohenenova mreže Popularnost uslijed: Vremenska kompleksnost: O(nkl), algoritam u linearnoj ovisnosti o veličini seta podataka Prostorna kompleksnost: O(k+n), svi podaci u glavnoj memoriji => pristup brz i algoritam efikasan Neovisnost o redu prezentacije uzoraka 31 K-means parcijalno grupisanje Jednostavan za implementaciju Kompleksnost i vrijeme nije problematično Neizvjesnost sa: podešavanjem broja klastera stop-kriterijumom => može konvergirati lok. minimumu, uslijed lošeg izbora inicijalne particije 32 16

K-means parcijalno grupisanje Senzitivan na šum i izuzetke!!! Preporuka: K-mediods: umjesto mean-a, koristi najčešće locirani centralni objekt u klasteru. nije osjetljiv na šum i izuzetke. 33 Fuzzy grupisanje 34 17

Fuzzy k - means algoritam Fuzzy k - means algoritam je dizajniran tako da proizvede grupe, gdje je za svaki objekat proračunata mjera pripadnosti pojedinoj grupi. Na početku ovog algoritma pretpostavljamo oblik i broj grupa. 35 Fuzzy k - means algoritam Neka je X x,..., skup od N vektora, koji 1 xn predstavljaju podatke. Fuzzy clustering od X u c clustera se sastoji od funkcija,..., 1 c, pri čemu vrijedi : X 0,1 i ( x) 1 i x X za svako. Ove funkcije se nazivaju funkcijama pripadnosti i imaju vrijednost između 0 i 1. Fc-M algoritam je dizajniran tako da proizvede fuzzy clustere na isti način kao što se podrazumijeva da k- means proizvede tzv. ''hard'' clustere, preko minimizacije funkcije cilja: i m 2ik xk i 0 i k 36 18

Fuzzy k - means algoritam i predstavlja vrijednost i-te funkcije pripadnosti u k-toj tački podataka. v,..., vektori predstavljaju centre 1 vc clustera. Da bi se minimizirala funkcija cilja, centri clustera i funkcije pripadnosti su dizajnirane tako da se najveća pripadnost javlja u tačkama blizu odgovarajućih centara clustera. m se naziva eksponencijalna težina i koristi se da priguši šum u podacima. 37 Fuzzy k - means algoritam Algoritam radi minimizaciju funkcije cilja koja je postignuta na sljedeći način: Centri klastera v m x i ik k ik k k Funkcije pripadnosti 2 1/ xk i ik 2 1/ xk j j m 1/ m1 1/ m1 38 19

Fuzzy k - means algoritam 1. Slučajno se bira k centara clustera 2. Izračuna se Euklidova distancu izmedju centara clustera i svakog vektora 3. Uzima se da m u formuli ima vrijednost 2 4. Izračuna se vrijednost funkcije pripadnosti 5. Dodijele se vektori onom clusteru za koji funkcija pripadnosti ima najveću vrijednost 6. Ponovo se računaju centri klastera i algoritam ponavlja iterativno sa korakom 2 sve dok stop-kriterij ne bude ispunjen 39 Primjer 1.5 Tip Standardizirani podatak o cijeni Standandizirani podatak o dužini kočionog puta Audi 0,866 0,208 BMW 0,496-0,602 Corvette 1,235-1,811 Ford -0,706-1,542 Honda -0,429 0,410 Mazda 0,126 0,679 Mercedes 1,051 0,006 Nissan -0,429 0,073 Porcshe 3,454-2,215 Toyota -0,059 1,218 VW -0,706-0,128 Volvo 0,219 0,612 1 0.5 0-0.5-1 -1.5-2 Vrijednosti testnih parametara grupisanih po tipu vozila -2.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Primjena K-means algoritma za k=3 grupa i matricu podataka X 40 20

Primjer 1.5 Tip Standardizirani podatak o cijeni Standandizirani podatak o dužini kočionog puta Audi 0,866 0,208 BMW 0,496-0,602 Corvette 1,235-1,811 Ford -0,706-1,542 Honda -0,429 0,410 Mazda 0,126 0,679 Mercedes 1,051 0,006 Nissan -0,429 0,073 Porcshe 3,454-2,215 Toyota -0,059 1,218 VW -0,706-0,128 Volvo 0,219 0,612 1 0.5 0-0.5-1 -1.5-2 Vrijednosti testnih parametara grupisanih po tipu vozila -2.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 Primjena FKM algoritma za k=3 grupa i matricu podataka X 41 Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Mapa okruženja mobilnog robota korištena kao ulaz za grupisanje 42 21

Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Rezultati primjene k - means algoritma na robotsku mapu, 6 iteracija 43 Primjer primjene k-means, k- mediods i fuzzy-k-means algoritma Rezultati primjene fuzzy k - means algoritma na robotsku mapu, 65 iteracija 44 22

Primjena fuzzy K meansgrupisanja Automatizacija kuća i zgrada Korištenjem uzoraka omogućava se unapređenje sistema upravljanja sa osobenostima predikcije. Uzorci predstavljaju zauzetost prostora ukućanima u predhodnih par godina u cilju automatske kontrole temperature Metode bazirane na Fuzzy C-means i exclusive Self-Organizing Maps daju najbolje perfomase u upravljanju. 45 Zaključak klaster analize Algoritmi grupisanja se razlikuju u mnogim aspektima: brzina učenja, količina podataka za treniranje, brzina klasifikacije, robusnost, itd. 46 23

Zaključak klaster analize K-means metoda je jednostavna, nije vremenski zahtjevna i nezavnisna je od rasporeda uzoraka. Negativne strane se odnose na činjenicu da sama selekcija broja klastera utiče na rezultat. Kao alternativna metoda preporučuje K-mediods, koja umjesto mean-a, koristi najčešće locirani centar objekt u klasteru i nije osjetljiv na šum. Fuzzy K-means grupisanje pri istom ulaznom setu podataka vrši bolje grupisanje od K-means algoritma. Potrebno je više vremena za FCM grupisanje nego za K-means grupisanje istog seta podataka. 47 Zaključak klaster analize Nema najboljeg j algoritma grupisanja podataka. Preporuka: isprobati više algoritama na datom skupu podataka!!! 48 24