Matematičke metode u marketingu Multidimenzionalno skaliranje Lavoslav Čaklović PMF-MO 2016
MDS Čemu služi: za redukciju dimenzije Bazirano na: udaljenosti (sličnosti) među objektima Problem: Traži se projekcija najmanjeg ranga koja čuva zadane udaljenosti. Obradit ćemo: 1 klasično MDS, 2 metrijsko MDS, 3 ne metrijsko MDS. Objekti mogu imati metrijske karakteristike, ordinalne ili kategorijske.
Sličnost (bliskost 1 ) udaljenost 2, Fukciju d : S R nazivamo metrikom ako zadovoljava aksiome: 1 x, y S, d(x, y) 0 (pozitivnost) 2 d(x, y) = 0 x = y (definitnost) 3 x, y S, d(x, y) = d(y, x) (simetričnost) 4 x, y, z S, d(x, z) d(x, y) + d(y, z). (tranzitivnost) Primjer: euklidska metrika x y, metrika Minkowskog (izvedena iz p-norme x y p, p 1) Problem. Zadan je konačan skup S i funkcija d : S R koja zadovoljava pozitivnost i simetričnost (obično kao simetrična matrica D n n ). Naći x 1,... x n R p tako da je d ij x i x j. 1 similarity, proximity 2 distance
Izometričko smještavanje 3 Teorem (Imbedding theorem) Zadan je konačni skup točaka S R k, n := #S s l p metrikom. Tada je S izometrički smjestiv u l N p za N = ( n 2). Problem je kako smanjiti dimenziju N. U praktičnim situacijama opravdano je zahtijevati da smještavanje dozvoljava određenu ɛ-distorziju metrike. To omogućava niže dimenzije smještavanja. Za općenite metričke prostore (S, d) to nije uvijek moguće, napr. ako je S jedinična sfera u R 2, a d lučna metrika. 3 embedding
X m p = x 11 x 1p x 21 x 2p.. x m1 x mp KLASIČNO 4 MDS PCA Y = D (matrica udaljenosti između redaka) y 11 y 1p y 21 y 2p.. y m1 y mp Što ako je poznato samo D? Može li se rekonstruirati X ili Y? Nap. matrica D je invarijantna na translaciju i rotaciju pa X nije nužno jedinstvena. U klasičnom MDS pretpostavlja se da je D matrica euklidskih udaljenosti. Definirajmo: B = XX τ. Tada su B i D vezane, pa je ideja izraziti B preko D i zatim faktorizacijom dobiti X. 4 Gower, 1966
Dakle: b ij = k=1 x ik x jk, a d 2 ij = b ii + b jj 2b ij. (1) Zbog invarijantnosti na translacije, možemo zamišljati da je X centrirana, tj. k, x ik = 0. To ima za posljedicu i=1 b ij = j=1 p x ik x jk = p m x ik j=1 k=1 k=1 j=1 x jk = 0. (2) Stoga ćemo tražiti B tako da zadovoljava (2).
Zbog (1) i (2) je dij 2 = tr(b) + m b jj i=1 dij 2 = m b ii + tr(b) j=1 odnosno Nadalje, zbog (1) j=1 i=1 d 2 ij = 2m tr(b). b ij = 1 2 (b ii + b jj dij 2 ) = 1 1 dij 2 + 1 dij 2 1 2 m m m 2 i=1 j=1 Time smo dobili B. Ostaje izračunati X. j=1 i=1 ij dij 2 d 2
Faktorizacija: B = V ΛV τ, V ort. matrica svojstvenih vektora, Λ = diag(λ 1, λ 2,..., λ p ) matrica pripadnih svojstvenih vrijednosti, λ 1 λ 2... λ p. Kriterij odabira q-dim aproksimacije (reprezentacije) ovisi o: c q 5 := λ 1 + λ 2 + + λ q λ 1 + λ 2 + + λ p Rješenje jednadžbe XX τ = B ja sada X = V Λ 1/2. Napomena: Ako je polazna matrica X ranga q < p, onda je i r(b) = q, tj. λ k = 0, k > q, pa je umjesto V dovoljno uzeti prvih q stupaca [v 1 v 2... v q ], a u matrici Λ prvih q sv. vrijednosti. 5 c q 0.8
NE METRIČKO SKALIRANJE Što ako B nije simetrična pozitivno definitna? Napr. ako je D = (d ij ) i d ij nije euklidska udaljenost 6. Osim toga, D može biti izvedena iz matrice sličnosti S = (s ij ) na neki od sljedećih načina: d ij = const. s ij d ij = 1/s ij d ij = s ii + s jj 2s ij Štoviše, postoje realne situacije kad d ij d ji. Zadana je matrica udaljenosti D m m. Traži se reprezentacija X R m q ( x i x j 2 =: ˆd ij 2 ) tako da je STRESS S X := i<j (ˆd ij d ij ) 2 i<j d ij 2 minimalno (alt. d ϕ(d), ϕ : R R monotona). 6 eng. dissimilarity matrix
Ne metričko skaliranje (rangirani brendovi): isomds(,k=3) a e pts3[,2] 10 5 0-5 j d -10 h f g i b c -10-5 0 5 10-6 -4-2 0 2 4 pts3[,3] pts3[,1]