Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 1 Predavana i vežbe 2 1.2 Particia supa. Definicia lastera-nastava Zadni puta smo definirali particiu supa A s m 2 elemenata na lastera 1 m. Sup svih particia supa A sastavlenih od lastera označili smo s P(A, ). Spomenuli smo da se bro elemenata supa P(A, ) može se izračunati esplicitno te da e edna Stirlingovom brou druge vrste oi glasi: P(A, ) = 1! ( 1) m. =1 Na današenem predavanu doazuemo ovu formulu. U tu svrhu isorist ćemo poznatu formulu ulučivana islučivana. Lema 1. (Formula ulučivana islučivana) Nea su X 1,..., X podsupovi od onačnog supa X. Bro elemenata od X oi ne leže niti u ednom od podsupova X i, i = 1,..., edna e X i = X X i + X i X + + ( 1) X 1 X. 1 i 1 i< Teorem 1. Bro svih particia supa A sastavlenih od lastera edna Stirlingovom brou druge vrste P(A, ) = 1! ( 1) m. (1) =1 Doaz. Promatramo sup svih surecia sa supa {1,..., m} u sup {1,..., }. Bro tavih surecia prebroat ćemo na dva različita načina iz čega će proizaći esplicitna formula za P(A, ). Prvi način: Promatramo particiu supa {1,..., m} na nepraznih i disuntnih podsupova C te definiramo funciu f : {1,..., m} {1,..., } tao da e f(x) =, ao e x C. Ovava onstrucia se može napraviti na uupno P(A, ) načina. Permutiramo li supova C, sliedi da uupni bro surecia sa supa {1,..., m} u sup {1,..., } iznosi! P(A, ). Drugi način: Nea e X sup svih funcia sa {1,..., m} u {1,..., }. Uočimo da uupni bro tavih funcia iznosi X = m. Za i = 1,...,, označimo s X i sup svih funcia f za oe se i ne nalazi u slici od f. Tada za svai x, f(x) može biti bilo oi od 1 broeva različitih od i, odale e X i = ( 1) m. Analogno s X i X, 1 i < označimo sup svih funcia f za oe se i i ne nalaze u slici od f. Tada za svai x, f(x) može biti bilo oi od 2 broeva različitih od i te, odale e X i X = ( 2) m itd. Funcia iz X e surecia ao i samo ao ne leži niti u ednom od supova X i, odnosno onda i samo onda ao pripada supu X i. Stoga iz Leme 1 sliedi da e bro surecia dan s
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 2 X i = X 1 i X i + 1 i< X i X + + ( 1) X 1 X ( ) ( ) ( ) = m ( 1) m + ( 2) m + + ( 1) ( ) m 1 2 = ( 1) ( ) m = =0 ( 1) m =1 Suladno prvom načinu prebraana sliedi da e bro surecia sa supa A u sup {1,..., } edna! P(A, ), do e suladno drugom načinu ta bro edna =1 ( 1) ( ) m, odale sliedi P(A, ) = 1! ( 1) m. =1 Primedba 1. Specialno, ao e = 2, onda e P(A, ) = 2 m 1 1. 2. Toča - reprezentant podataa Osnovni problem lasterirana možemo formulirati na sledeći način: Problem lasterirana Iz supa P(A, ) - svih particia supa A sastavlenih od lastera treba odabrati onu particiu Π oa ima svostvo da su podaci unutar istog lastera što e moguće međusobno bliži/sličnii, a istovremeno što e moguće više udalenii/različitii od podataa u drugim lasterima. Odmah e asno da analiza svih mogućih particia neće biti moguća, er e bro elemenata supa P(A, ) u ovisnosti o brou podataa supa A te broa izrazito veli. Umesto pretraživana supa P(A, ) onstruirat ćemo različite algortime pomoću oih ćemo biti u mogućnosti odrediti neu loalno optimalnu particiu. Jedan od važnih preduveta za to e poznavati reprezentant supa podataa, odnosno imati efiasnu metodu za negovo određivane. U tom smislu u ovo celini analiziramo naednostavnii sluča u ome e toča reprezentant supa točaa. Pri tome ćemo posebno promatrati sluča ednodimenzionalnih podataa, a posebno sluča višedimenzionalnih podataa. 2.1 Reprezentant podataa u R Zadani su podaci A i, i = 1,..., m za oe ćemo ovde pretpostavlati da su zadani s ednim obiležem (atributom) te nea su ta obileža redom realni broevi y 1, y 2,..., y m R. U nastavu ćemo zbog
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 3 ednostavnosti, umesto o podacima A i govorit o podacima y i. Problem se sastoi u tome da treba odrediti realni bro c R oi će što bole reprezentirati podate. U tu svrhu trebamo definirati tzv. vazimetriču funciu. Definicia 1. Funciu d: R R R +, oa ima svostvo pozitivne definitnosti x, y R d(x, y) 0 & d(x, y) = 0 x = y, zovemo vazimetriča funcia Primedba 2. Kvazimetriča funcia se često zove i funcia različitosti. U literaturi se definira i funcia sličnosti ao funcia s : R R [0, 1] oa ima sledeća dva svostva x, y R s(x, y) [0, 1] & s(x, y) = 1 x = y. Uočimo da svaa funcia sličnosti s definira ednu vazimetriču funciu d na sledeći način d(x, y) = 1 s(x, y). Definicia 2. Nea e d: R R R + vazimetriča funcia. Kažemo da e c R naboli reprezentant podataa y 1, y 2,..., y m R u odnosu na vazimetriču funciu d onda ao e c = argmin t. ao e c R toča globalnog minimuma funcionala F : R R + F (c) = U nastavu navodimo neolio tipičnih vazimetričih funcia: d(c, y i ), (2) d(c, y i ). (3) Funciu d LS : R R R + zadanu s d LS (x, y) = (x y) 2 zovemo least squares (LS) vazimetriča funcia. Funciu d 1 : R R R + zadanu s d 1 (x, y) = x y zovemo l 1 metriča funcia ili često Manhattan metria. Općenito u R vriedi d 1 (x, y) = d 2 (x, y) = d (x, y) = d p (x, y), p 1. Nea e ϕ : S R strogo onvesna funcia definirana na onvesnom supu S R, tava da e ϕ diferenciabilna na ints. Fuciu d ϕ : S ints [0,, zadanu formulom d ϕ (x, y) = ϕ(x) ϕ(y) ϕ (y)(x y),
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 4 zovemo Bregmanova diveregencia. Nie tešo videti da ova funcia zadovolava uvete vazimetriče funcie. Geometrisi gledano, značene Bregmanove divergencie možemo ilustrirati na sledeći način (vidi Sliu 1): pretpostavimo da smo u toči (y, ϕ(y)) povuli tangentu t na graf funcie ϕ, čia e ednadžba z t (ξ) = ϕ(y) + ϕ (y)(ξ y). Uočimo da Bregmanova divergencia meri razliu između vriednosti funcia ϕ(x) z t (x) u toči x. Na ova način u ovisnosti o izboru funcie ϕ možemo onstruirati veliu lasu vazimetričih funcia. Specialno ao e ϕ(x) = x 2, dobivamo LS-vazimetriču funciu. Pretpostavimo da e ϕ(x) = ln x, odale e d ϕ (x, y) = x y ln x y 1 =: d IS(x, y). Ovu Bregmanovu divergenciu zovemo Itaura-Saito divergencia. Pretpostavimo da e ϕ(x) = x ln x, odale e d ϕ (x, y) = x ln x y x + y =: d KL(x, y) zovemo Kullbach-Leiblerova divergencia d ϕ (x, y) y x Slia 1: Bregmanove divergencie Zadata 1. Poažite da su funcie d 1, d 2, d metrie na R, do ostale navedene vazimetriče funcie nisu metrie. U nastavu ćemo izvesti esplicitne formule za naboli reprezentant podataa y 1, y 2,..., y m R u odnosu na svau od navedenih vazimetričih funcia. Naboli reprezenatant u smislu LS vazimetriče funcie Reprezantant c LS podataa y 1, y 2,..., y m R u smislu LS-vazimetriče funcie dobivamo minimimizaciom funcionala Nie tešo poazati da e F LS (c) = c LS = argmin (c y i ) 2. d LS (c, y i ) = 1 m Uočimo da e c LS aritmetiča sredina podataa y 1,..., y m. y i.
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 5 Aritmetiča sredina c LS podataa y 1,..., y m podednao ovisi o svim podacima. Ao pri tome među podacima ima i onih oi se estremno razliuu od većine podataa, onda će upravo ti estremni podaci značanie utecati na aritmetiču sredinu. Primietimo taođer da se zbog F LS(c LS) = 2 (y i c LS) = 0, aritmetiča sredina podataa neće promieniti ao podate promienimo tao da e uupna promena ednaa nuli. Naboli reprezenatant u smislu l 1 metrie Reprezantant c 1 podataa y 1, y 2,..., y m R u smislu l 1 -metriče funcie dobivamo minimimizaciom funcionala F 1 (c) = c y i. Nie tešo poazati da e c 1 obični median podataa y 1,..., y m, odnosno da vriedi c 1 = argmin d 1 (c, y i ) = med i y i. Ao su elementi supa podaci y i, i = 1,..., m sortirani, odnosno tavi da e y 1 y 2... y m, onda se median može ednostavno zapisati na sledeci nacin: med i y i = { y+1, m = 2 + 1 bilo oi bro iz segmenta [y, y +1 ], m = 2 Median med i y i podataa y 1,..., y m e sredna veličina na ou estremni podaci nemau niaav uteca. Uočimo da se uvie može pronaći element y µ, taav da e med i y i = y µ. Median med i y i neće se promieniti ao podate oi su mani od y µ po voli smanuemo ili povećavamo do y µ, a podate oi su veći od y µ po voli povećavamo ili smanuemo do y µ, t. med i (y i + e i ) = med i y i, (4) gde e e = (δ 1,..., δ m ) R m taav da e (i) δ {δ R: δ + y > med i y i }, ao e y > med i y i, (ii) δ {δ R: δ + y < med i y i }, ao e y < med i y i, (iii) δ µ = 0. (5) Naprie primietimo da e med i e i = δ µ = 0 i zamislimo da smo podate y 1,..., y m ) sortirali od namaneg prema navećem. Tada vriedi med i (y i + e i ) = med i (y 1 + δ 1,..., y µ 1 + δ µ 1, med i y i, y µ+1 + δ µ+1,..., a m + δ m ) = med i y i.
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 6 Naboli reprezentant u smislu Itaura-Saito divergencie Reprezantant c IS podataa y 1, y 2,..., y m R u smislu Itaura-Saito divergencie dobivamo minimimizaciom funcionala ( c F IS (c) = d IS (c, y i ) = ln c ) 1. y i y i Kao e F IS derivabilna funcia, dobivamo odale sliedi da e c = m m F IS(c) = 1 y i m c, 1, edinstvena stacionarna toča funcie F IS. Taođer, lao se vidi da e y i F IS (c) = m c 2, odale sliedi da e reprezntant u smislu Itaura-Saito divergencie harmonisa sredina podataa y 1,..., y m : c IS = m m 1 y i. Naboli reprezentant u smislu Kullbach-Leiblerova divergencie Reprezantant c KL podataa y 1, y 2,..., y m R u smislu Kullbach-Leiblerove divergencie dobivamo minimimizaciom funcionala ) F KL (c) = d KL (c, y i ) = (c ln cyi c + y i. Kao e F KL derivabilna funcia, dobivamo F KL(c) = ln c, y i odale sliedi da e c = m m y i, edinstvena stacionarna toča funcie F KL. Taođer, lao se vidi da e F KL (c) = m c, odale sliedi da e reprezentant u smislu Kullbach-Leiblerova divergencie geometrisa sredina podataa y 1,..., y m : c KL = m m y i. Zadata 2. Nea e c 1 reprezentant podataa u 1,..., u r te c 2 reprezentanta podataa v 1,..., v l u odnosu na neu vazimetriču funciu d. Pretpostavimo da e c 2 > c 1. Odredite x R taav da e d(c 1, x) = d(c 2, x), za LS vazimetriču funciu, l 1 metriču funciu, Itaura-Saito divergenciu te Kullbach-Leiblerovu divergenciu. Kao izgledau supovi {x : x R : d(c 1, x) d(c 2, x)}. Rešene (a) LS vazimetriča funcia i l 1 divergencia x = c 1 c 2 ln c 1 ln c 2 metriča funcia x = 1 2 (c 1 + c 2 ) (b) Itaura-Saito (c) Kullbach-Leiblerova divergenicia x = e 1+ c2 ln c2 c1 ln c1 c 2 c1. Zadata 3. Ao e d ϕ nea Bregmanova divergencia, onda e općenito d ϕ (x, y) d ϕ (y, x) (obasnite grafiči). Smisleno e definirati novu funciu D ϕ, formulom D ϕ (x, y) = d ϕ (y, x). Nie tešo videti da
Grupirane podataa: pristupi, metode i primene, letni semestar 2013./2014. 7 e ovao definirana funcia taođer vazimetriča funcia. Izvedite formule za reprezentant podataa y 1,..., y m u smislu vazimetriče funcie D ϕ. Rešene. c = 1 y i. m Definicia naboleg reprezentanta može se poopćiti na način da svaom od podataa y i pridružimo težine w i > 0, i = 1,..., m te u tom smislu imamo sledeću definiciu. Definicia 3. Nea e d: R R R + vazimetriča funcia. Kažemo da e c R naboli težinsi reprezentant podataa y 1, y 2,..., y m R s težinama w 1,..., w m > 0 u odnosu na vazimetriču funciu d onda ao e c = argmin w i d(c, y i ), (6) t ao e c R toča globalnog minimuma funcionala F : R R + F (c) = w i d(c, y i ). (7) Primedba 3. Za svau od navedenih vazimetričih funcia moguće e izvesti odgovarauće formule za naboli težinsi reprezentant. Problem težinsog reprezentanta za LS vazimetriču funciu, Itaura- Saito divegenciu te Kullbach-Leiblerovu divergenciu ao i izvod odgovaraućih formula analizirat ćemo u oviru domaće zadaće. Problem težinsog reprezentanta za l 1 -metriu analiziramo na sledećem predavanu.