IX. Analiza podataka (2) IX.1. Diskriminaciona analiza MARKETINŠKO ISTRAŽIVANJE. Tehnike za analizu podataka. Multivarijacione tehnike

Σχετικά έγγραφα
3.1 Granična vrednost funkcije u tački

Analiza varijanse sa jednim Posmatra se samo jedna promenljiva

numeričkih deskriptivnih mera.

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Uvod u neparametarske testove

Elementi spektralne teorije matrica

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Neparametarski testovi za dva nezavisna uzorka. Boris Glišić 208/2010 Bojana Ružičić 21/2010

Teorijske osnove informatike 1

Regresija i korelacija

Str

, i = 1, 2, n. Tabela 1 Koeficijent proste korelacije. Standardizovani regresioni koeficijent. Regresioni koeficijent b

5. Karakteristične funkcije

IZVODI ZADACI (I deo)

III VEŽBA: FURIJEOVI REDOVI

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

Postoji nekoliko statidtičkih testova koji koriste t raspodelu, koji se jednim imenom zovu t-testovi.

Zavrxni ispit iz Matematiqke analize 1

Mašinsko učenje. Regresija.

Uvod u neparametarske testove

Testiranje statistiqkih hipoteza

Osnovne teoreme diferencijalnog računa

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

SISTEMI NELINEARNIH JEDNAČINA

Ispitivanje toka i skiciranje grafika funkcija

ELEKTROTEHNIČKI ODJEL

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

NEPARAMETRIJSKE TEHNIKE

Funkcije dviju varjabli (zadaci za vježbu)

Izbor statističkih testova Ana-Maria Šimundić

Računarska grafika. Rasterizacija linije

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Operacije s matricama

7 Algebarske jednadžbe

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

Analiza varijanse (ANOVA) Analiza varijanse sa jednim faktorom ANOVA 07/12/2017. Tehnike za analizu podataka. Multivarijacione tehnike

INTELIGENTNO UPRAVLJANJE

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

41. Jednačine koje se svode na kvadratne

Prediktor-korektor metodi

5 Ispitivanje funkcija

X. Testiranje hipoteza. Osnovni koncepti testiranja hipoteza TESTIRANJE HIPOTEZA OSNOVNI KONCEPTI I TESTOVI POVEZANOSTI 19/11/15

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

1. zadatak , 3 Dakle, sva kompleksna re{ewa date jedna~ine su x 1 = x 2 = 1 (dvostruko re{ewe), x 3 = 1 + i

Počela biostatistike, Poslijediplomski interdisciplinarni doktorski studij Molekularne bioznanosti. Molekularne bioznanosti. Molekularne bioznanosti

3 Populacija i uzorak

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

MATEMATIKA 2. Grupa 1 Rexea zadataka. Prvi pismeni kolokvijum, Dragan ori

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

Jednodimenzionalne slučajne promenljive

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

4.7. Zadaci Formalizam diferenciranja (teorija na stranama ) 343. Znajući izvod funkcije x arctg x, odrediti izvod funkcije x arcctg x.

Prosta linearna regresija (primer)

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

1 Promjena baze vektora

Oblasti izučavanja. IX.1. Osnove analize podataka. IX. Analiza podataka UVOD U ANALIZU PODATAKA 13/11/15

Računarska grafika. Rasterizacija linije

KVADRATNA FUNKCIJA. Kvadratna funkcija je oblika: Kriva u ravni koja predstavlja grafik funkcije y = ax + bx + c. je parabola.

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

PID: Domen P je glavnoidealski [PID] akko svaki ideal u P je glavni (generisan jednim elementom; oblika ap := {ab b P }, za neko a P ).

8 Funkcije više promenljivih

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

TRIGONOMETRIJSKE FUNKCIJE I I.1.

Geometrija (I smer) deo 1: Vektori

18. listopada listopada / 13

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

( , 2. kolokvij)

1.4 Tangenta i normala

2log. se zove numerus (logaritmand), je osnova (baza) log. log. log =

Matematička analiza 1 dodatni zadaci

TEORIJA BETONSKIH KONSTRUKCIJA 79

Univerzitet u Nišu, Prirodno-matematički fakultet Prijemni ispit za upis OAS Matematika

Linearna algebra 2 prvi kolokvij,

Klasifikacija blizu Kelerovih mnogostrukosti. konstantne holomorfne sekcione krivine. Kelerove. mnogostrukosti. blizu Kelerove.

Sistemi veštačke inteligencije primer 1

Eliminacijski zadatak iz Matematike 1 za kemičare

Riješeni zadaci: Limes funkcije. Neprekidnost

Riješeni zadaci: Nizovi realnih brojeva

Statističke metode. doc. dr Dijana Karuović

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

IZVODI ZADACI (I deo)

Program testirati pomoću podataka iz sledeće tabele:

APROKSIMACIJA FUNKCIJA

RIJEŠENI ZADACI I TEORIJA IZ

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Kaskadna kompenzacija SAU

Chi-kvadrat test. Chi-kvadrat (χ2) test

Obrada signala

( ) ( ) 2 UNIVERZITET U ZENICI POLITEHNIČKI FAKULTET. Zadaci za pripremu polaganja kvalifikacionog ispita iz Matematike. 1. Riješiti jednačine: 4

Zadaci iz trigonometrije za seminar

Ĉetverokut - DOMAĆA ZADAĆA. Nakon odgledanih videa trebali biste biti u stanju samostalno riješiti sljedeće zadatke.

DRUGI KOLOKVIJUM IZ MATEMATIKE 9x + 6y + z = 1 4x 2y + z = 1 x + 2y + 3z = 2. je neprekidna za a =

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Transcript:

1 MARKETINŠKO ISTRAŽIVANJE IX. Analiza podataka (2) 1. Diskriminaciona analiza 2. Kanonička korelaciona analiza 3. Faktorska analiza 4. Analiza skupina 5. Multidimenzionalno skaliranje 6. Analiza združenih efekata 2 Tehnike za analizu podataka IX.1. Diskriminaciona analiza Koncept diskriminacione analize Diskriminaciona analiza za dve grupe Višestruka diskriminaciona analiza Univarijacione tehnike Posmatra se samo jedna promenljiva Posmatra se više promenljivih istovremeno Multivarijacione tehnike 3 4

2 Multivarijacione tehnike Tehnike zavisnosti Tehnike međuzavisnosti Koncept diskriminacione analize Jedna zavisna varijabla - ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih efekata Više zavisnih varijabli - MANOVA i MANCOVA - Kanonička korelacija Fokus na varijablama - Faktorska analiza Fokus na objektima - Analiza skupina - Višedimenzionalno skaliranje 5 Ciljevi diskriminacione analize Koncept diskriminacione analize Metodologija diskriminacione analize 6 Šta je diskriminaciona analiza? Ciljevi diskriminacione analize Diskriminaciona analiza je tehnika koja se koristi za klasifikaciju jedinica posmatranja u jednu od dve ili više alternativnih grupa (populacija) na osnovu određenog skupa merenja Razgraničenje po kome se jedinice posmatranja dodeljuju grupama definiše diskriminaciona funkcija Diskriminacionom analizom se identifikuju varijable kojima se vrše diskriminacija (razgraničenje, razlikovanje) između jedinica posmatranja deleći ih u dve ili više grupa. 1. Određivanje linearne kombinacije nezavisnih varijabli kojima bi se odvojile grupe tako da se maksimizira varijabilitet između grupa, u odnosu na varijabilitet unutar grupa (t.j. predmeti posmatranja u različitim grupama su maksimalno razdvojeni) 2. Razvoj procedura kojima se novi predmeti posmatranja sa poznatim profilima dodeljuju jednoj od dve (ili više) grupa 3. Testiranje značajnosti razlika između dve grupe na osnovu centroida grupe 4. Određivanje koje varijable imaju najznačajniji uticaj u objašnjavanju razlike između grupa. 7 8

3 Tačka razdvajanja, C Populacija 2 Populacija 1 Procenat članova populacije 1 pogrešno klasifikovanih u populaciju 2 X 2 X 1 Procenat članova populacije 2 pogrešno klasifikovanih u populaciju 1 9 Koncept diskriminacione analize Potrebno je razdvojiti dve populacije po promenljivoj X, čija je srednja vrednost jednaka za populaciju 1 i X 2 za populaciju 2 Ako obe populacije imaju istu varijansu, onda je C obično dato sa: X1 X2 C = + 2 Tada su verovatnoće obe greške jednake U praksi se populacije odvajaju po više od jedne varijable, odnosno treba da se formira linearna kombinacija tih varijabli. X 1 10 Metodologija diskriminacione analize Traži se linearna kombinacija nezavisnih varijabli kako bi se na najbolji način razdvojile unapred definisane grupe Odgovarajući kriterijum je da se varijansa između grupa maksimizira u odnosu na varijanse unutar grupa Tako se dobija: Z = b 1 X 1 + b 2 X 2 + b 3 X 3 +... + b n X n Z diskriminacioni skor (diskriminaciona funkcija ili osa) b diskriminacioni ponderi X nezavisne varijable (prediktori). 11 Centroidi Za testiranje hipoteze o jednakosti sredina grupa za dve ili više grupa koriste se diskriminaciona analiza i ANOVA U diskriminacionoj analizi se računa diskriminacioni skor za svaku jedinicu posmatranja u svakoj grupi, a zatim računa prosečna vrednost skora za svaku grupu Sredina grupe, definisana kao vektor čiji su elementi srednje vrednosti grupe za svaku od opserviranih promenljivih, se naziva centroid grupe Poređenje centroida grupa pokazuje koliko su grupe međusobno udaljene od diskriminacione funkcije. 12

4 Diskriminaciona analiza za dve grupe Diskriminaciona funkcija Skor odsecanja za dve grupe Ocenjivanje diskriminacione funkcije Testiranje značajnosti Tumačenje diskriminacionih pondera Pregled postupka diskriminacione analize Za sprovođenje diskriminacione analize treba preduzeti sledeće postupke: 1. Formirati grupe 2. Oceniti diskriminacionu funkciju 3. Odrediti značajnost funkcije i varijabli 4. Interpretirati diskriminacionu funkciju, i 5. Izvesti klasifikaciju i validaciju. 13 14 Diskriminaciona funkcija Diskriminacione funkcija se određuje korišćenjem generalizovane mere udaljenosti između centroida grupa Ova mera se izračunava poređenjem raspodele diskriminacionih skorova za dve ili više grupa Diskriminaciona funkcija dobro odvaja grupe ako je preklapanje raspodela diskriminacionih skorova malo, i obrnuto Primer sa dve grupe, A i B, i dve mere, X 1 i X 2 za svakog člana ove dve grupe, čime se dobija... 15 16

5 Skor odsecanja za dve grupe Na osnovu diskriminacione funkcije formulišu se (jednodimenzioni) Z-diskriminacioni skorovi i dobija jednodimenzionalna raspodela na Z-osi Njihova srednja vrednost za svaku grupu je centroid grupe Proporcija pogotka, t.j. procenat pravilno klasifikovanih slučajeva se određuje računanjem jedinstvenog skora odsecanja Vrednosti ispod skora odsecanja idu u prvu grupu, a one iznad se klasifikuju u drugu grupu 17 Dodeljivanje grupama za dve jednake grupe Klasifikuje se kao grupa A Z A Z odse Z B ZA ZB = + 2 Klasifikuje se kao grupa B 18 Dodeljivanje grupama za dve grupe različite veličine Optimalna, poderisana tačka odsecanja Z A Klasifikovano u grupu A Z n = Z + n Z Z B B A A B odsec Istraživanje na + nbtržišta Klasifikovano u grupu B Neponderisana tačka odsecanja 19 Poređenje regresione i diskriminacione analize Posmatrano kao skup simbola, ove dve tehnike izgledaju isto. Ipak, razlike su koceptualno suštinske: Cilj regresione analize je da oceni populacijsku srednju vrednost zavisne varijable na osnovu poznatih vrednosti nezavisnih varijabli. Na osnovu određenih pretpostavki se ocenjuju parametri koji imaju željene karakteristike Cilj diskriminacione analize je da se pronađe linearna kombinacija nezavisnih varijabli kojom se maksimizira diskriminacija između dve grupe i minimizira verovatnoća pogrešnog klasifikovanja u odgovarajuće grupe. Formuliše se strategija za precizno klasifikovanje predmeta posmatranja u odgovarajuće grupe 20

6 Ocenjivanje diskriminacione funkcije Broj diskriminacionih funkcija koje se mogu izvesti je min (m 1, p), gde je m broj modaliteta zavisne varijable, a p broj nezavisnih promenljivih Kod direktne metode ocenjivanja sve nezavisne varijable su uključene u diskriminacionu funkciju Parametri - diskriminacioni ponderi - se ocenjuju tako da se maksimizira varijabilitet između grupa, u odnosu na varijabilitet unutar grupa Time se obezbeđuje maksimalna razdvojenost grupa Testiranje značajnosti Statistički se testira značajnost razlike centroida H 0 : µ A = µ B H a : µ A µ B Vilksovo λ predstavlja proporciju varijabiliteta unutar grupe u odnosu na ukupan varijabilitet Vrednost Vilksovog λ se nalazi u intervalu (0,1) Veće vrednosti λ ukazuju da se sredine grupa ne razlikuju i obrnuto Značajnost se testira korišćenjem F-rasporeda Ako se odbaci nulta hipoteza, rezultat se interpretira. 21 22 Tumačenje diskriminacionih pondera Mogu se tumačiti slično kao regresioni koeficijenti, i govore o jačini uticaja odgovarajuće varijable 1. Visoke standardizovane vrednosti diskriminacionih pondera znače da odgovarajuće varijable više doprinose diskriminacionoj snazi funkcije 2. Relativni značaj nezavisnih varijabli proizilazi i iz koeficijenata korelacije strukture (prosta korelacija između svakog prediktora i diskriminacione funkcije), koji se zovu i kanonička opterećenja ili diskriminaciona opterećenja Obe vrednosti su osetljive na veličinu uzorka u odnosu na broj nezavisnih varijabli (min. 20:1) Primer Na osnovu podataka dobijenih iz istraživanja koje je sprovedeno na studentima EF, želimo da utvrdimo da li postoje razlike između studenata koji polože sve ispite u roku i onih koji prenose ispite u narednu godinu, prema starosti studenata i ostvarenoj prosečnoj oceni, Odrediti pravilo za klasifikaciju studenata u dve grupe: studenti koji očiste godinu i studenti koji prenose ispite u narednu godinu. Za zaključivanje koristiti nivo značajnosti od α=5%. 23 24

7 Da li uspevate da polo-žite sve ispite u roku? da ne Tota l Starost studenta Prosek ocena na studijama Starost studenta Prosek ocena na studijama Starost studenta Prosek ocena na studijama Deskriptivne mere Mean Std. Deviation Valid N (listwise) Unweighted Weighted 20.5455.73855 22 22.000 8.2523.82720 22 22.000 21.4638 1.71995 69 69.000 7.3125.57859 69 69.000 21.2418 1.58704 91 91.000 7.5397.75914 91 91.000 25 Ocena diskriminacione funkcije nestandardizovani diskriminacioni koeficij. Diskriminaciona funkcija bi mogla da glasi: Z= -1,877-0,398 starost studenta + 1,387 prosek ocena na studijama 26 Testiranje značajnosti varijabli Za svaku od dve nezavisne varijable (prediktore) testiramo sledeću nultu hipotezu: H 0 : µ da = µ ne ; H a : µ da µ ne. Odbacujemo nultu hipotezu u oba slučaja. Obe nezavisne varijable su statistički značajne u objašnjavanju razlike između posmatranih grupa Testiranje znajajnosti ocenjene diskriminacione funkcije Nakon testiranja značajnosti varijabli, potrebno je testirati i značajnost diskriminacione funkcije, Testiramo nultu hipotezu: H 0 : ocenjena diskriminaciona funkcija nije značajna u diskriminaciji grupa; H a : ocenjena diskriminaciona funkcija je značajna u diskriminaciji grupa. 27 28

8 Interpretacija rezultata Vilksovo λ predstavlja proporciju varijabiliteta unutar grupe u odnosu na ukupan varijabilitet Pošto je p-vrednost 0, što je manje od α=0,05, zaključujemo da imamo dovoljno dokaza da odbacimo nultu hipotezu, Ocenjena diskriminaciona funkcija dobro razdvaja ispitanike u dve grupe. Karakteristične vrednosti pokazuju relativnu efikasnost svake ocenjene diskriminacione funkcije Pošto imamo samo dve grupe, ovde nas zanima jedino koeficijent kanoničke korelacije, jer: 0,593 2 = 0,3516, 35,16% varijanse zavisne varijable da li položite sve ispite u roku? je objašnjeno modelom 29 Novembar 201 30 Z = -1,877-0,398 starost studenta +1,387 prosek ocena na studijama Ako se prosek ocena na studijama poveća za jednu jedinicu onda će se diskriminacioni skor povećati za 1,387 jedinica, pod uslovom da je starost studenata konstantna. Ako se starost studenata poveća za jednu godinu, tada će se diskriminacioni skor smanjiti za 0,398 jedinica, pod uslovom da je prosek ocena na studijama nepromenjen. Ocena diskriminacione funkcije standardizovani diskriminacioni koeficijenti Prosek ocena na studijama više doprinosi razdvajanju grupa, odnosno ima veći uticaj na to da li će student uspeti da položi sve ispite u roku. 31 32

9 Nestandardizovani, standardizovani koeficijenti i diskriminaciona opterećenja Osnovni nedostatak nestandardizovanih koeficijenata je to što na njihovu vrednost utiče merna skala, odnosno jedinice mere Osnovni nedostatak standardizovanih diskriminacionih koeficijenata je što na njihovu vrednost može uticati multikolinearnost Ovo se može prevazići tako što se umesto standardizovanih koeficijenata koriste diskriminaciona opterećenja i poredi njihova apsolutna vrednost da se vidi čiji je uticaj veći Diskriminaciona opterećenja Diskriminaciona opterećenja se još nazivaju kanonička opterećenja ili korelacije strukture Diskriminaciona opterećenja predstavljaju obične koeficijente korelacije između diskriminacione funkcije i nezavisne varijable (prediktora) Diskriminaciona opterećenja predstavljaju zajedničku varijansu prediktora i diskriminacione funkcije. 33 34 Ocena diskriminacione funkcije diskriminaciona opterećenja Poređenje redosleda uticaja standardizovanih koeficijenata i opterećenja Korelacija između proseka ocena na studijama i diskriminacione funkcije iznosi -0,769; između starosti studenata i diskriminacione funkcije -0,494 Poređenje apsolutnih vrednosti opterećenja pokazuje da prosek ocena na studijama najviše doprinosi diskriminaciji. Kako i opterećenja i standardizovani koeficijenti pokazuju isti redosled uticaja prediktora, sledi da u ovom zadatku ne postoji multikolinearnost 35 36

10 Diskriminacija i validacija (1) Metoda zadržavanja: Uzorak se deli na dva poduzorka. Jedan poduzorak se koristi za ocenu pravila za klasifikaciju, a drugi, koji se zadržava, se koristi za validaciju. Klasifikaciona (diskriminaciona) matrica se sastoji iz brojeva koji otkrivaju moć predviđanja diskriminacione funkcije. Na glavnoj dijagonali se nalaze ispravne klasifikacije, a brojevi van dijagonale pokazuju pogrešne klasifikacije. Proporcija pogotka, t.j. procenat ispravno klasifikovanih slučajeva, je suma sa glavne dijagonale podeljena sa ukupnim brojem elemenata U postupku validacije, diskriminacioni ponderi ocenjeni prvim poduzorkom se primenjuju na nezavisne varijable drugog poduzorka i dobija ocena zavisne promenljive za drugi poduzorak koja se poredi sa realizacijama. 37 Diskriminacija i validacija (2) U-metod, t.j. unakrsna validacija: U svakom trenutku se, sukcesivno, zadržava po jedna opservacija, dok se diskriminaciona funkcija ocenjuje na osnovu preostalih n 1 + n 2 1 opservacija i zadržana opservacija klasifikuje na osnovu upravo ocenjene diskriminacione funkcije Postupak se ponavlja sve dok se ne klasifikuju sve opservacije. Ako označimo sa m 1 i m 2 broj pogrešno klasifikovanih opservacija iz prvog i drugog uzorka, onda je ocenjena stopa greške klasifikacije (diskriminacije) data sa P 1 = m 1 /n 1 i P 2 = m 2 /n 2. 38 Diskriminacioni skorovi centroida grupa Skor odsecanja za dve grupe se računa prema sledećem obrascu: Z odsec = n ne Z da + n da Z ne n da + n ne Klasifikacija u diskriminacionoj analizi Diskriminacioni skor za svaki predmet posmatranja se računa na osnovu običnih (nestandardizovanih) diskriminacionih koeficijenata i konkretnih vrednosti prediktora Centroid je prosek diskriminacionih skorova za sve predmete posmatranja u toj grupi Klasifikacija se odnosi na dodeljivanje predmeta posmatranja unapred definisanim grupama 39 40

11 Klasifikacija pomoću diskriminacionog skora Klasifikacija pomoću funkcije klasifikacije Ako je diskriminacioni skor studenta veći od skora odsecanja, on se klasifikuje u grupu sa višim centroidom Ako je diskriminacioni skor niži od skora odsecanja, takav student bi se klasifikovao u grupu sa nižim centroidom 41 42 Odnosno: Z da = -143,851 + 7,308 starost studenta + + 16,501 prosek ocena na studijama Z ne = -136,501 + 7,889 starost studenta + + 13,988 prosek ocena na studijama Validacija diskriminacione funkcije Proporcija pogotka pokazuje u kom procentu je izračunata diskriminaciona funkcija ispravno klasifikovala predmete posmatranja Ona se može izračunati i uz pomoć matrice klasifikacije Za dve grupe proporcija pogotka se računa kao: Za konkretnog ispitanika se računaju vrednosti ovih funkcija i on svrstava u grupu čija je vrednost klasifikacione funkcije veća. 43 44

12 Prva klasifikaciona matrica Original Count % Da li uspevate da polozite sve ispite u roku? Predicted Group Membership Total da ne da da 17 5 22 ne 10 59 69 da 77.3 22.7 100.0 ne 14.5 85.5 100.0 Ovde posmatramo rezultate klasifikacije na uzorku na kome je ocenjena diskriminaciona funkcija Proporcija pogotka iznosi: 45 46 Druga klasifikaciona matrica Da li uspevate da polozite sve ispite u roku? Predicted Group Membership Total da ne da Treća klasifikaciona matrica Da li uspevate da polozite sve ispite u roku? Predicted Group Membership Total da ne da Crossvalidated Count % da 16 6 22 ne 10 59 69 da 72.7 27.3 100.0 ne 14.5 85.5 100.0 Original Count % da 6 3 9 ne 2 22 24 da 66.7 33.3 100.0 ne 8.3 91.7 100.0 Ovde su prikazani rezultati klasifikacije ispitanika metodom unakrsne validacije Proporcija pogotka sada iznosi: Ovde vidimo rezultate klasifikacije primenom metode zadržavanja Proporcija pogotka sada iznosi: 47 48

13 Višestruka diskriminaciona analiza Diskriminacione funkcije Statistička značajnost Diskriminacione funkcije kod višestruke diskriminacije Isto se traži osa sa osobinom da se maksimizira odnos varijabiliteta između grupa i varijabiliteta unutar grupa, a koji su projektovani na ovu osu Komplikovanije je ovo obaviti sa tri i više grupa, te značajan potencijal diskriminacije ostaje neiskorišćen Za m grupa i p nezavisnih varijabli ukupan broj mogućih diskriminacionih funkcija je min (m 1, p) Od, obično, m-1 diskriminacionih funkcija neće sve biti statistički značajne Tada se postiže ušteda u broju dimenzija. 49 50 Značajnost i interpretacija diskriminacionih funckija Ako se nekoliko funkcija testira istovremeno, Vilksovo λ se dobija kao proizvod jednodimenzionih λ svake pojedinačne funkcije Postupak interpretacije se ne menja Određivanje pripadnosti grupi se komplikuje kada postoji više diskriminacionih funkcija i grupa. IX.2. Kanonička korelaciona analiza 51 52

14 Tehnike za analizu podataka Multivarijacione tehnike Univarijacione tehnike Posmatra se samo jedna promenljiva Posmatra se više promenljivih istovremeno Multivarijacione tehnike 53 Jedna zavisna varijabla Tehnike zavisnosti - ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih efekata Više zavisnih varijabli - MANOVA i MANCOVA - Kanonička korelacija Tehnike međuzavisnosti Fokus na varijablama - Faktorska analiza Fokus na objektima - Analiza skupina - Višedimenzionalno skaliranje 54 Kanonička korelaciona analiza Primenjuje se kada postoje dve ili više varijabli kriterijuma (zavisnih) i više prediktora (nezavisnih varijabli) Predstavlja proširenje koncepta višestruke regresije Posmatra se povezanost između dva skupa varijabli (skupa zavisnih varijabli i skupa nezavisnih varijabli) definisanih na intervalnoj skali Postupak kanoničke korelacione analize (1) Kanonička korelacija može da se definiše kao korelacija između linearne kombinacije zavisnih varijabli i linearne kombinacije nezavisnih varijabli. Maksimizira se korelacija dve linearne kombinacije varijabli Skup kanoničkih koeficijenata ili pondera se određuje za skup nezavisnih varijabli (prediktora): U = a 1 X 1 + a 2 X 2 +... + a q X q, Skup kanoničkih koeficijenata ili pondera se određuje i za skup kriterijuma (zavisnih varijabli) V = b 1 Y 1 + b 2 Y 2 +... + b p Y p Korelacija između U i V se naziva kanoničkom korelacijom. 55 56

15 Postupak kanoničke korelacione analize (2) Kanonička korelacija može da se definiše kao korelacija između linearne kombinacije zavisnih varijabli i linearne kombinacije nezavisnih varijabli. Dakle, prva kanonička korelacija se dobija tako što se maksimizira korelacija između U i V, po koeficijentima a i b Pošto se izračuna prva kanonička korelacija i odrede prvi kanonički par (U1 i V1), na isti način se određuje sledeći, uz uslov da su nekorelirani (ortogonalni) na prethodno određene kanonike Ukupan broj kanoničkih funkcija je određen sa min (p, q) Tumačenje kanoničkih funkcija Da bi video da li postoji smislena interpretacija, istraživač ispituje relativnu vrednost i znake nekoliko pondera koji određuju svaku jednačinu Svaki kanonički faktor, odnosno kanonici (U-ovi i V-ovi) se tumači na osnovu Nivoa značajnosti faktora, Veličine kanoničke korelacije, i Dela varijabiliteta jednog skupa varijabli koji je objašnjen drugim skupom varijabli. Osim toga, kanonička opterećenja (a-ovi i b-ovi), koja predstavljaju korelaciju između originalnih varijabli i kanoničkih faktora, mogu se koristiti da bi se interpretirala ova funkcija. 57 58