v skupine Fakulteta za družbene vede Univerza v Ljubljani Zgledi uporabe statistike na različnih strokovnih področjih DMFA, Ljubljana 27. in 28.1.

Σχετικά έγγραφα
Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 14. november Gregor Dolinar Matematika 1

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 5. december Gregor Dolinar Matematika 1

Funkcijske vrste. Matematika 2. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 2. april Gregor Dolinar Matematika 2

DISKRIMINANTNA ANALIZA

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 22. oktober Gregor Dolinar Matematika 1

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 21. november Gregor Dolinar Matematika 1

KODE ZA ODKRIVANJE IN ODPRAVLJANJE NAPAK

Kontrolne karte uporabljamo za sprotno spremljanje kakovosti izdelka, ki ga izdelujemo v proizvodnem procesu.

Diferencialna enačba, v kateri nastopata neznana funkcija in njen odvod v prvi potenci

Funkcije. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 12. november Gregor Dolinar Matematika 1

Booleova algebra. Izjave in Booleove spremenljivke

matrike A = [a ij ] m,n αa 11 αa 12 αa 1n αa 21 αa 22 αa 2n αa m1 αa m2 αa mn se števanje po komponentah (matriki morata biti enakih dimenzij):

Odvod. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 10. december Gregor Dolinar Matematika 1

NEPARAMETRIČNI TESTI. pregledovanje tabel hi-kvadrat test. as. dr. Nino RODE

Enačba, v kateri poleg neznane funkcije neodvisnih spremenljivk ter konstant nastopajo tudi njeni odvodi, se imenuje diferencialna enačba.

SKUPNE PORAZDELITVE VEČ SLUČAJNIH SPREMENLJIVK

Numerično reševanje. diferencialnih enačb II

Zaporedja. Matematika 1. Gregor Dolinar. Fakulteta za elektrotehniko Univerza v Ljubljani. 15. oktober Gregor Dolinar Matematika 1

Splošno o interpolaciji

Tretja vaja iz matematike 1

Definicija. definiramo skalarni produkt. x i y i. in razdaljo. d(x, y) = x y = < x y, x y > = n (x i y i ) 2. i=1. i=1

Kotne in krožne funkcije

Gimnazija Krˇsko. vektorji - naloge

PONOVITEV SNOVI ZA 4. TEST

1. Definicijsko območje, zaloga vrednosti. 2. Naraščanje in padanje, ekstremi. 3. Ukrivljenost. 4. Trend na robu definicijskega območja

13. Jacobijeva metoda za računanje singularnega razcepa

Metoda voditeljev. Poglavje 2

*M * Osnovna in višja raven MATEMATIKA NAVODILA ZA OCENJEVANJE. Sobota, 4. junij 2011 SPOMLADANSKI IZPITNI ROK. Državni izpitni center

Izpeljava Jensenove in Hölderjeve neenakosti ter neenakosti Minkowskega

IZPIT IZ ANALIZE II Maribor,

1. Έντυπα αιτήσεων αποζημίωσης Αξίωση αποζημίωσης Έντυπο Πίνακας μεταφράσεων των όρων του εντύπου...

Integralni račun. Nedoločeni integral in integracijske metrode. 1. Izračunaj naslednje nedoločene integrale: (a) dx. (b) x 3 +3+x 2 dx, (c) (d)

Osnove matematične analize 2016/17

vezani ekstremi funkcij

Osnove elektrotehnike uvod

Statistična analiza. doc. dr. Mitja Kos, mag. farm. Katedra za socialno farmacijo Univerza v Ljubljani- Fakulteta za farmacijo

Funkcije več spremenljivk

Specifični faktorji E i bodo imeli majhne variance, če so opazovane spremenljivke blizu faktorju F.

Ο Αλγόριθμος FP-Growth

Poliedri Ines Pogačar 27. oktober 2009

- Geodetske točke in geodetske mreže

1. Optimizacijske naloge

Podobnost matrik. Matematika II (FKKT Kemijsko inženirstvo) Diagonalizacija matrik

Ανάλυση Συσχέτισης IΙ

Multivariatna analiza variance

Matematika. Funkcije in enačbe

Osnove statistike. Drago Bokal Oddelek za matematiko in računalništvo Fakulteta za naravoslovje in matematiko Univerza v Mariboru. 1.

Na pregledni skici napišite/označite ustrezne točke in paraboli. A) 12 B) 8 C) 4 D) 4 E) 8 F) 12

Algebraične strukture

Vaje iz MATEMATIKE 8. Odvod funkcije., pravimo, da je funkcija f odvedljiva v točki x 0 z odvodom. f (x f(x 0 + h) f(x 0 ) 0 ) := lim

Frekvenčna analiza neperiodičnih signalov. Analiza signalov prof. France Mihelič

MATEMATIČNI IZRAZI V MAFIRA WIKIJU

Matematika vaja. Matematika FE, Ljubljana, Slovenija Fakulteta za Elektrotehniko 1000 Ljubljana, Tržaška 25, Slovenija

Metoda glavnih komponent

8. Diskretni LTI sistemi

1. izpit iz Diskretnih struktur UNI Ljubljana, 17. januar 2006

II. LIMITA IN ZVEZNOST FUNKCIJ

RAZPOZNAVANJE VZORCEV

Univerza v Ljubljani Fakulteta za računalništvo in informatiko MATEMATIKA. Polona Oblak

REˇSITVE. Naloga a. b. c. d Skupaj. FAKULTETA ZA MATEMATIKO IN FIZIKO Oddelek za matematiko Verjetnost 2. kolokvij 23.

Reševanje sistema linearnih

Matematika. BF Lesarstvo. Zapiski ob predavanjih v šolskem letu 2010/2011

Delovna točka in napajalna vezja bipolarnih tranzistorjev

1 Fibonaccijeva stevila

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

V tem poglavju bomo vpeljali pojem determinante matrike, spoznali bomo njene lastnosti in nekaj metod za računanje determinant.

3. Lokalna optimizacija

Matematika I (VS) Univerza v Ljubljani, FE. Melita Hajdinjak 2013/14. Pregled elementarnih funkcij. Potenčna funkcija. Korenska funkcija.

Matematika 1. Gregor Dolinar. 2. januar Fakulteta za elektrotehniko Univerza v Ljubljani. Gregor Dolinar Matematika 1

diferencialne enačbe - nadaljevanje

cot x ni def. 3 1 KOTNE FUNKCIJE POLJUBNO VELIKEGA KOTA (A) Merske enote stopinja [ ] radian [rad] 1. Izrazi kot v radianih.

Funkcije dveh in več spremenljivk

POROČILO 3.VAJA DOLOČANJE REZULTANTE SIL

Dragi polinom, kje so tvoje ničle?

Regresija in korelacija

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

S programom SPSS se, glede na število ur, ne bomo ukvarjali. Na izpitu so zastavljena neka vprašanja, zraven pa dobimo računalniški izpis izračunov. T

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

IZVODI ZADACI (I deo)

Domače naloge za 2. kolokvij iz ANALIZE 2b VEKTORSKA ANALIZA

1. OSNOVNI POJMI STATISTIKA. Definicija 1: Statistika je veda, ki se ukvarja s proučevanjem množičnih pojavov v določenem prostoru in času.

Kotni funkciji sinus in kosinus

18. listopada listopada / 13

The Thermal Comfort Properties of Reusable and Disposable Surgical Gown Fabrics Original Scientific Paper

Osnove sklepne statistike

VEKTORJI. Operacije z vektorji

Navadne diferencialne enačbe

Iterativno reševanje sistemov linearnih enačb. Numerične metode, sistemi linearnih enačb. Numerične metode FE, 2. december 2013

Effect of Fibre Fineness on Colour and Reflectance Value of Dyed Filament Polyester Fabrics after Abrasion Process Izvirni znanstveni članek

OSNOVE STATISTIKE. FKKT-kemijski tehnologi 1.letnik Miran Černe

Državni izpitni center SPOMLADANSKI IZPITNI ROK *M * NAVODILA ZA OCENJEVANJE. Sreda, 3. junij 2015 SPLOŠNA MATURA

Funkcija je predpis, ki vsakemu elementu x iz definicijskega območja D R priredi neko število f (x) R.

Univerza na Primorskem Pedagoška fakulteta Koper. Geometrija. Istvan Kovacs in Klavdija Kutnar

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

CM707. GR Οδηγός χρήσης SLO Uporabniški priročnik CR Korisnički priručnik TR Kullanım Kılavuzu

Navadne diferencialne enačbe

!! " &' ': " /.., c #$% & - & ' ()",..., * +,.. * ' + * - - * ()",...(.

FAKULTETA ZA STROJNIŠTVO Matematika 4 Pisni izpit 22. junij Navodila

Transcript:

Razvrščanje v skupine Anuška Ferligoj Fakulteta za družbene vede Univerza v Ljubljani Photo: Vladimir Batagelj, UNI-LJ Zgledi uporabe statistike na različnih strokovnih področjih DMFA, Ljubljana 27. in 28.1.2012

A. Ferligoj: Razvrščanje v skupine 1 Kazalo 1 Uvod.............................................. 1 3 Osnovni pojmi......................................... 3 5 Osnovni pojmi......................................... 5 6 Merjenje podobnosti in različnosti............................... 6 11 Nekaj mer ujemanja...................................... 11 14 Problem razvrščanja v skupine................................. 14 15 Primer............................................. 15 21 Reševanje problema razvrščanja v skupine........................... 21 23 Hierarhično zruževanje v skupine............................... 23 29 Metoda voditeljev....................................... 29 31 Koraki reševanja problema razvrščanja v skupine....................... 31 32 Primer 1: Sodelovanje v okvirnih programih EU (OP)..................... 32 33 Indikatorji sodelovanja v OP.................................. 33 37 Primer 2: Drobno gospodarstvo v Sloveniji.......................... 37

A. Ferligoj: Razvrščanje v skupine 1 Uvod Razvrščanje v skupine, tako da so enote znotraj skupin kar čim bolj podobne med seboj in enote različnih skupin kar čim bolj različne med seboj, je zelo star. Čeprav je problem razvtrščanja v skupine intuitivno preprost in razumljiv, je njegovo reševanje še vedno zelo aktualno. To dokazuje veliko število objavljenih člankov s tega področja, tako v teoretičnih kot v uporabnih revijah. Obstajata dve reviji s področja razvrščanja v skupine: Journal of Classification, ki je začel izhajati v letu 1984 in Advances in Data Analysis and Classification, ki izhaja od leta 2005. V letu 1985 je bilo ustanovljeno tudi združenje International Federation of Classification Societies, katerega člani so raziskovalci s področja razvrščanja v skupine.

A. Ferligoj: Razvrščanje v skupine 2 Dva najpomembnejša razloga za tako velik interes sta: Pred letom 1960 se je področje razvrščanja v skupine razvijalo ločeno v različnih znanstvenih področjih. V šestdesetih letih je zaznati prve poskuse združitve različnih pristopov reševanja problema razvrščanja v skupine in v letu 1963 prvo obsežnejše delo Sokala and Sneatha s tega področja. Od tedaj se področje razvrščanja v skupine razvija kot samostojna disciplina znotraj multivariatne analize. Na razvoj razvrščanja v skupine je zelo vplival razvoj računalniške tehnologije. Računalniki so omogočili uporabo kompleksnejših pristopov in analizo velikih količin podatkov. Tudi teoretični rezultati v računalništvu glede računske zahtevnosti algoritmov je za to področje zelo pomembno.

A. Ferligoj: Razvrščanje v skupine 3 Osnovni pojmi Opredelimo nekaj pojmov, ki jih potrebujemo za formulacijo problema razvrščanja v skupine: X enota U končna množica enot C skupina, C U C razvrstitev, C = {C i } Φ množica dopustnih razvrstitev P kriterijska funkcija, P : Φ R + 0

A. Ferligoj: Razvrščanje v skupine 4 Razvrstitev Poznamo različne tipe razvrstitev, npr. razbitje, hierahija, piramida, fuzzy ravzrstitev, razvrstitev s prekrivajočimi skupinami itd. Najpogosteje se uporablja razbitje in hierarhija. Razvrstitev C = {C 1, C 2,...C k } je razbitje množice enot U, če velja: C i = U i i j C i C j = Razvrstitev H = {C 1, C 2,...C k } je hierarhija, če za vsak par skupin C i in C j iz H velja C i C j {C i, C j, } in je popolna hierarhija, če za vsako enoto X velja {X} H in U H.

A. Ferligoj: Razvrščanje v skupine 5 Osnovni pojmi Opredelimo nekaj pojmov, ki jih potrebujemo za formulacijo problema razvrščanja v skupine: X enota U končna množica enot C skupina, C U C razvrstitev, C = {C i } Φ množica dopustnih razvrstitev P kriterijska funkcija, P : Φ R + 0

A. Ferligoj: Razvrščanje v skupine 6 Merjenje podobnosti in različnosti Podobnost količinsko popišemo s preslikavo - mero podobnosti, ki vsakemu paru enot (X, Y ) priredi neko realno število Pogosto merimo različnost, s : (X, Y ) R d : (X, Y ) R Mera različnosti d mora zadoščati naslednjim pogojem: 1. d(x, Y ) 0 nenegativnost 2. d(x, X) = 0 3. d(x, Y ) = d(y, X) simetričnost Mera različnosti lahko zadošča še nekaterim pogojem. Če zadošča še pogojema 4. d(x, Y ) = 0 = X = Y razločljivost 5. Z : d(x, Y ) d(x, Z) + d(z, Y ) trikotniška neenakost ji pravimo razdalja.

A. Ferligoj: Razvrščanje v skupine 7 Različnosti za številske podatke Za enoti X in Y, ki sta opisani z m številskimi spremenljivkami X = (x 1, x 2,..., x m ) Y = (y 1, y 2,..., y m ) je evklidska razdalja med njima definirana takole: d(x, Y ) = m (x i y i ) 2 i=1 Pogosto je uporabljena tudi razdalja Manhattan d(x, Y ) = m x i y i i=1

A. Ferligoj: Razvrščanje v skupine 8 Obe razdalji sta posebna primera razdalje Minkowskega d(x, Y ) = ( m x i y i r ) 1 r, r > 0 i=1 Če je r = 2, je razdalja Minkowskega evklidska razdalja, če je r = 1, je razdalja Manhattan. Razdalja Minkowskega ima naslednjo lastnost: pri večjih vrednostih r-ja imajo večjo težo pri merjenju razdalje med enotama večje razlike x i y i. V limiti, to je pri r =, je Minkowskijeva razdalja d(x, Y ) = max i x i y i Imenuje se razdalja Čebiševa ali trdnjavska razdalja.

A. Ferligoj: Razvrščanje v skupine 9 Standardizacija Če so spremenljivke merjene z različnimi merskimi lestvicami, številske spremenljivke pred računanjem različnosti med enotami standardiziramo. Najpogostejša standardizacija je: z ij = x ij µ j σ j kjer je x ij vrednost j-te spremenljivke X j za enoto i, µ j je aritmetična sredina in σ j standardni odklon spremenljivke X j. Tako standardizirana spremenljivka ima aritmetično sredino 0 in standardni odklon 1.

A. Ferligoj: Razvrščanje v skupine 10 Mere podobnosti za binarne podatke Za enote, ki so določene s samimi dihotomnimi spremenljivkami, je poznanih več mer podobnosti. Te so določne s frekvencami v kontingenčni tabeli za par enot, med katerima merimo podobnost. Kontingenčno tabelo za enoti X in Y, kjer so vrednosti vseh m spremenljivk + in, je naslednja Enota X Enota Y + + a b c d Vsota vseh širih frekvenc je enaka številu vseh merjenih spremenljivk (a+b+c+d = m).

A. Ferligoj: Razvrščanje v skupine 11 Nekaj mer ujemanja 1. Sokal-Michenerjeva mera (1958) 2. Prva Sokal-Sneathova mera (1963) 3. Rogers-Tanimotova mera (1960) a + d a + b + c + d 2(a + d) 2(a + d) + b + c a + d a + d + 2(b + c) 4. Russell-Raova mera (1940) a a + b + c + d

A. Ferligoj: Razvrščanje v skupine 12 5. Jaccardova mera (1908) 6. Czekanowskijeva mera (1913) a a + b + c 2a 2a + b + c 7. Druga Sokal-Sneathova mera (1963) a a + 2(b + c) Vse mere podobnosti so definirane na intervalu od 0 do 1.

A. Ferligoj: Razvrščanje v skupine 13 Kriterijska funkcija Kriterijske funkcije lahko konstruiramo indirektno kot funkcijo ustrezne mere različnosti med pari enot (npr. evklidska razdalja) ali direktno. Najpogosteje je kriterijska funkcija definirana indirektno. V primeru razbitij v k skupin običajno uporabljamo Wardovo kriterijsko funcijo P (C) = d(x, t C ) C C X C kjer je t C centroid skupine C in d kvadrat evklidske razdalje. V literaturi je poznanih še več drugih kriterijskih funkcij.

A. Ferligoj: Razvrščanje v skupine 14 Problem razvrščanja v skupine Z vpeljanimi pojmi lahko zastavimo problem razvrščanja v skupine (tudi klasifikacije, taksonomije) kot optimizacijski problem takole: Določi razvrstitev C Φ tako, da bo P (C ) = min C Φ P (C) kjer je Φ množica dopustnih razvrstitev. Ker je množica enot U končna, je tudi množica dopustnih razvrstitev končna. Zato je množica vseh rešitev tega problema Min(Φ, P ) (optimalne razvrstitve) neprazna množica. Teoretično lahko poiščemo množico rešitev Min(Φ, P ) s popolnim preborom.

A. Ferligoj: Razvrščanje v skupine 15 Primer Kot primer vzemimo množico petih enot U = {a, b, c, d, e}, ki jih določata dve spremenljivki (U in V): a b c d e U 1 2 3 5 5 V 1 3 2 3 5

A. Ferligoj: Razvrščanje v skupine 16 V e b d c a U

A. Ferligoj: Razvrščanje v skupine 17 Razvrstimo dane enote v dve skupini (razbitje), kjer je kriterijska funkcija določena takole: P (C) = d(x, t C ) C C X C kjer je t C = (u C, v C ) težišče (centroid) skupine C ter različnost d evklidska razdalja. Vse dopustne razvrstitve (razbitja z dvema skupinama) ter izračunane vrednosti zgoraj zapisane kriterijske funkcije za vsako razvrstitev so zapisane v naslednji tabeli:

A. Ferligoj: Razvrščanje v skupine 18 C C 1 C 2 t 1 t 2 P (C) 1 a bcde (1.0, 1.0) (3.75, 3.25) 6.65 2 b acde (2.0, 3.0) (3.50, 2.75) 8.18 3 c abde (3.0, 2.0) (3.25, 3.00) 8.67 4 d abce (5.0, 3.0) (2.75, 2.75) 7.24 5 e abcd (5.0, 5.0) (2.75, 2.25) 5.94 6 ab cde (1.5, 2.0) (4.33, 3.33) 6.66 7 ac bde (2.0, 1.5) (4.00, 3.67) 7.21 8 ad bce (3.0, 2.0) (3.33, 3.33) 9.58 9 ae bcd (3.0, 3.0) (3.33, 2.67) 9.48 10 bc ade (2.5, 2.5) (3.67, 3.00) 8.48 11 bd ace (3.5, 3.0) (3.00, 2.67) 9.34 12 be acd (3.5, 4.0) (3.00, 2.00) 8.08 13 cd abe (4.0, 2.5) (2.67, 3.00) 8.58 14 ce abd (4.0, 3.5) (2.67, 2.33) 9.11 15 de abc (5.0, 4.0) (2.00, 2.00) 5.41

A. Ferligoj: Razvrščanje v skupine 19 Kriterijska funkcija ima najmanjšo vrednost pri zadnji razvrstitvi: Najboljša razvrstitev je torej P (C 15 ) = 5.41 C = {{a, b, c}, {d, e}} Iz primera (razvrščamo le pet enot v razbitje z dvema skupinama) je razvidno, da je število vseh dopustnih razvrstitev, za katere je potrebno pregledati vrednosti kriterijske funkcije, 15. V splošnem je v primeru razvrščanja n enot v dve neprekrivajoči skupini 2 n 1 1 vseh dopustnih razvrstitev, kar pomeni, da z naraščanjem števila enot število razvrstitev eksponentno narašča.

A. Ferligoj: Razvrščanje v skupine 20 V primeru razvrščanja n enot v k skupin je število vseh popolnih razvrstitev enako Stirlingovemu številu druge vrste S(n, k) = 1 k! k ( k ( 1) k i i i=0 Na primer: število vseh možnih različnih razvrstitev tridesetih enot v deset skupin je ) i n S(30, 10) = 173373343599189364594756

A. Ferligoj: Razvrščanje v skupine 21 Reševanje problema razvrščanja v skupine Nekatere probleme razvrščanja v skupine je mogoče učinkovito (v polinomskem času) rešiti. V splošnem pa lahko rečemo, da je večina teh problemov računsko zelo zahtevnih in, kot je videti, sodijo med NP-težke probleme (NP je oznaka za Nedeterminističen Polinomski). Iz teh rezultatov izhaja, da za večino problem razvrščanja v skupine ne obstajajo učinkoviti (polinomski) postopki za eksaktno reševanje teh problemov. Zato se moramo zateči k približnim (hevrističnim) postopkom, ki so relativno hitri in dajo dobre rezultate, a ne vedno najboljše.

A. Ferligoj: Razvrščanje v skupine 22 Postopki razvrščanja v skupine Najpomembnejši tipi teh postopkov so: lokalna optimizacija (metoda prestavljanj) hierarhični (združevanja, cepitve in dodajanja) metoda voditeljev metode teorije grafov...

A. Ferligoj: Razvrščanje v skupine 23 Hierarhično zruževanje v skupine Postopki hierarhičnega združevanja ponavadi predpostavljajo, da so mere različnosti med n enotami iz množice enot U že izračunane in zapisane v simetrični matriki različnosti D = [d ij ]. Postopek je naslednji: vsaka enota je skupina: C i = {X i }, X i U, i = 1, 2,..., n; ponavljaj, dokler ne ostane ena sama skupina: določi najbližji si skupini C p in C q : d(c p, C q ) = min u,v d(c u, C v ) ; združi skupini C p in C q v skupino C r = C p C q ; zamenjaj skupini C p in C q s skupino C r ; določi mere različnosti d med novo skupino C r in ostalimi skupinami.

A. Ferligoj: Razvrščanje v skupine 24 Različnosti med skupinami C i C j 1 d(c i, C k ) 1 C k d(c i, C j ) d(c j, C k ) 1

A. Ferligoj: Razvrščanje v skupine 25 Metode Minimalna metoda ali enojna povezanost (Florek et al., 1951; Sneath, 1957): d(c i C j, C k ) = min(d(c i, C k ), d(c j, C k )) Maksimalna metoda ali polna povezanost (McQuitty, 1960): d(c i C j, C k ) = max(d(c i, C k ), d(c j, C k )) McQuittyjeva metoda (McQuitty, 1966; 1967): Wardova metoda (Ward, 1963): d(c i C j, C k ) = d(c i, C k ) + d(c j, C k ) 2 d(c i C j, C k ) = (n i + n j )n k (n i + n j + n k ) d2 (t ij, t k ) kjer s t ij označimo težišče (center) združene skupine C i C j in t k težišče skupine C k. n i označuje število enot v skupini C i.

A. Ferligoj: Razvrščanje v skupine 26 Drevo združevanja Potek združevanja si lahko grafično ponazorimo z drevesom združevanja - dendrogramom. Listi tega drevesa so enote, točke združitve pa sestavljene skupine: levi in desni naslednik vsake točke sta skupini, iz katerih je nastala. Višina točke, ki jo imenujemo nivo združevanja, je sorazmerna meri različnosti med skupinama.

A. Ferligoj: Razvrščanje v skupine 27 Lastnosti postopka hierarhičnega združevanja v skupine Kaže se požrešna hevristika postopka hierarhičnega združevanja v skupine. V naslednjih korakih postopka se lahko izkaže, da bi bilo bolje, ko bi v prejšnjih korakih združevali drugače, vendar tega postopek ne more popraviti. Zato se učinek požrešnosti manj pozna na nižjih nivojih združevanja in bolj pri višjih (z manjšim številom skupin). Postopek hierarhičnega združevanja v skupine je zelo priljubljen, ker je relativno preprost, rezultat združevanja je mogoče nazorno prikazati z dendrogramom, v splošnem postopek zahteva relativno malo računalniškega časa, uporabniku ni potrebno vnaprej določiti števila skupin.

A. Ferligoj: Razvrščanje v skupine 28 Lastnosti metod hierarhičnega združevanja v skupine Minimalna metoda je zelo učinkovita pri razkrivanju dolgih klobasastih, neeliptičnih skupin, ki so izrazito ločene med seboj. V primeru prekrivajočih se skupin se kaže verižni učinek metode, ko v vsakem koraku združevanja skupini dodaja le posamezno enoto. maksimalna metoda dobro razkriva okrogle skupine. Wardova metoda pa je najprimerješa za eliptično strukturirane podatke.

A. Ferligoj: Razvrščanje v skupine 29 Metoda voditeljev Med nehierarhične metode lokalne optimizacije sodi tudi metoda voditeljev (Hartigan, 1975), imenovana tudi K-MEANS (e.g., MacQueen, 1967) ali postopek dinamičnih oblakov (Diday, 1974). Postopek predpostavlja, da uporabnik lahko določi število skupin razbitja. Osnovna shema metode voditeljev je: določi začetno množico voditeljev L = {l i }; ponavljaj določi razvrstitev C tako, da prirediš vsako enoto njej najbližjemu voditelju; za vsako skupino C i C izračunaj njen centroid C i. in ga določi za novega voditelja l i skupine C i ; dokler se voditelji ne ustalijo.

A. Ferligoj: Razvrščanje v skupine 30 Nekatere lastnosti metode voditeljev Z metodo voditeljev je mogoče učinkovito razvrščati zelo veliko število enot v skupine, medtem ko metode hierarhičnega združevanja v skupine zmorejo razvrščati le nekaj sto enot v skupine. Postopek metode voditeljev je lokalno optimalni postopek. Različne začetne množice voditeljev lahko skonvergirajo v lokalno optimalne razvrstitve. Zato je potrebno postopek večkrat ponoviti z različnimi začetnimi voditelji, da bi dobili čim boljšo razvrstitev.

A. Ferligoj: Razvrščanje v skupine 31 Koraki reševanja problema razvrščanja v skupine Običajni koraki so (Hansen, Jaumard, Sanlaville 1993): 1. Izberi množico enot. 2. Določi ustrezno množico spremenljivk, ki določajo enote. 3. Izberi problemu razvrščanja v skupine in tipu spremenljivk ustrezno mero različnosti. 4. Izberi ustrezni tip razvrstitve (npr. razbitje, hierarhija). 5. Izberi ali poišči ustrezno kriterijsko funkcijo (e.g., Wardova kriterijska funkcija). 6. Izberi ali poišči postopek za ravrščanje v skupine glede na postavljeni problem. 7. Določi razvrstitev (razvrstitve), ki so optimalne glede na izbran kriterij in postopek. 8. Z metodami opisne statistike poišči lastnosti dobljenih skupin in z ustreznimi postopki razišči, če je dobljena razvrstitev razkrila naravno strukturo podatkov.

A. Ferligoj: Razvrščanje v skupine 32 Primer 1: Sodelovanje v okvirnih programih EU (OP) Raziskovalni problem Namen študije je dobiti vpogled v vzorce sodelovanja držav članic EU v Okvirnem programu EU za raziskave in tehnološki razvoj (OP). Vprašanji sta: 1. Ali obstoja razlika v sodelovanju držav EU12 in EU15 v 7OP? 2. Kakšna je tipologijo držav članic glede na indikatorje sodelovanja v 7OP?

A. Ferligoj: Razvrščanje v skupine 33 Indikatorji sodelovanja v OP Podatkovna baza E CORDA (Evropska komisija): 1. Število sprejetih projektov na prebivalca 2. Število sprejetih projektov na BDP 3. Finančni prispevek OP na prebivalca 4. Finančni prispevek OP na BDP 5. Finančni prispevek OP na sprejeti projekt 6. Delež koordiniranih projektov med sprejetimi projekti

A. Ferligoj: Razvrščanje v skupine 34

A. Ferligoj: Razvrščanje v skupine 35

A. Ferligoj: Razvrščanje v skupine 36

A. Ferligoj: Razvrščanje v skupine 37 Primer 2: Drobno gospodarstvo v Sloveniji Raziskovalni problem Ali obstajajo skupine lastnikov malih podjetij v Sloveniji, ki podobno menijo, kaj je pomembno za poslovni uspeh njihovih podjetij? Podatki Populacijo sestavljajo podjetja v Sloveniji, ki zadoščajo naslednjima pogojema (J. Prašnikar: Drobno gospodarstvo v Sloveniji - Rezultati ankete o obnašanju malih podjetij. Ljubljana: Ekonomska fakulteta, 1994): poleg lastnika mora podjetje imeti zaposlenega vsaj enega delavca in ne več kot petdeset delavcev, podjetje lahko deluje v vsaki aktivnosti razen kmetijstva.

A. Ferligoj: Razvrščanje v skupine 38 Za slučajni izbor podjetij v vzorec sta bila uporabljena dva spiska malih podjetij (vzorčni okvir): spisek, ki vključuje mala podjetja, ki so v evidenci Gospodarske zbornice Slovenije, spisek, ki vključuje obrti, ki so v evidenci Obrtne zbornice Slovenije. V vsakem spisku je bilo slučajno izbranih 100 podjetij. 49 podjetij je sodelovanje odklonilo. Stopnja anketiranja je torej bila 75,5 %. Podatki so bili zbrani z osebnim anketiranjem (CAPI). Anketa je bila izvedena v poletnih mesecih 1993.

A. Ferligoj: Razvrščanje v skupine 39 Anketno vprašanje: Prosim, ocenite v kolikšni meri vplivajo na vaš poslovni uspeh naslednji faktorji (uporabite petstopenjsko lestvico: 1 - sploh ni pomembno, 5 - zelo pomembno): PROD-MET MARK-MET PRODUKT ODNOSI USP-ZAP USP-MAN DRUZINA GOSP-ZDR POL-ZVE LOK-OBL DRZAVA PODJETJA izboljšave produkcijskih metod izboljšave marketinških metod izboljšave samih produktov dobri odnosi med zaposlenimi usposobljenost zaposlenih usposobljenost managementa podpora družine podpora gospodarskih združenj zveze v politiki podpora lokalnih oblasti podpora države podpora drugih podjetij

A. Ferligoj: Razvrščanje v skupine 40 Rezultati Razvrstitev je bila dobljena z Wardovo metodo hierarhičnega združevanja v skupine. Spremenljivke so bile standardizirane, uporabljena je bila evklidska razdalja. Dendrogram (glej naslednjo stran) je pokazal 5 tipičnih skupin.

A. Ferligoj: Razvrščanje v skupine 41 119 151 -+ 62 98 -+-----+ 99 49 63 -+-+ I 102 +---+ +-----------------+ 72 I 117 43 -+-+ 50 -+ 16 52 ---+ ---+---+ I 82 130 80 ---+ ---+-+ 34 I 106 ---+ +-----+ 122 -+-+ 131 107 ---+ +-+ I I 68 -----+ +---------+ 24 -+-+ +-----+ 146 I 60 96 -+-+ +-----+ 45 -+-+ 104 145 -+ I +-+ I 76 ---+-+ 150 30 I I 105 ---+-+---+ 11 ---+ I 10 88 -----+ ---+ I +-------+ I 135 ---+---+ 183 -+-+ I 110 54 -+ ---+-+ I +-------+ 113 8 -+-+ I I 58 -+-+ +-+ 91 114 136 -+-+ I I 134 ---+-+ 1 -+-+ I 57 46 -+-+ I +-+ 67 -+ +-------------+ I 19 38 ---+-+ +---+ 23 I 56 92 ---+-+ -+-+ 120 -+ I 86 ---+ 35 61 -+-+ -+ I +-----+ I I 37 ---+-+ 124 89 I +-+ 69 I 128 78 ---+-+ ---+ I 12 -+-+ +-+ 100 66 118 -+-+-+ 127 81 I I +-+ I 121 73 ---+-+ I 13 -----+ 70 ---+-+ 95 I 879 +-----------+ I 21 53 ---+-+ I 108 20 ---+ -+-+ +-----------------+ 90 31 -+ +---+ 112 85 ---+ I +---------+ I 6 I 25 14 ---+---+ 48 149 ---+-+ 44 ---+ I 77 -+-+ +-+ 109 64 I 103 -+-+-+ 94 I 29 ---+ 47 97 -+-+ +-+ 41 -+-+ 143 65 ---+ I I +---+ 33 -+-+ 137 32 ---+ I I 40 +-+ 83 -+-+ 138 I 17 ---+ 125 36 -+-+ I I +---------+ 133 ---+-+ 101 I 115 126 -+-+ I +-+ 75 -+-+ I 142 93 -+-+ +-+ 141 I I I 2 -+-+ +-+ 139 I 1477 -+-+ I 51 +-----------------------------+ I 111 74 -+---+ +-+ I 15 28 -+-+ +-+ I _ 22 ---+ 132 -+-+ 140 116 ---+---+ I 55 71 42 ---+ +---+ 1444 ---+-+ +-+ I I 5 ---+ I +-------+ I 39 27 -----+ 79 ---+-------+ I 26 59 84 ---+ 123 ---+---+ 129 +---+ I 148 -------+ 21

A. Ferligoj: Razvrščanje v skupine 42 Aritmetične sredine za 5 dobljenih skupin ar. sredina CLU 1 CLU 2 CLU 3 CLU 4 CLU 5 PROD-MET 3.46 4.06 + 3.81 2.22-1.79 - - 4.33 + + MARK-MET 3.85 3.92 4.13 + 3.67-3.00 - - 4.53 + + PRODUKT 3.57 4.00 4.25 ++ 2.28 - - 1.96 - - 4.47 + + ODNOSI 3.82 3.65 4.38 + 4.22 + 2.79 - - 4.53 + + USP-ZAP 4.04 4.02 4.53 + 4.11 3.00 - - 4.67 + USP-MAN 4.03 3.92 4.38 + 3.83 3.54 - - 4.73 + + DRUZINA 3.44 3.08-3.59 4.00 + 2.92 - - 4.73 + + GOSP-ZDR 2.78 2.77 3.84 ++ 3.50 + 1.75 - - 1.33 - - POL-ZVE 2.07 2.08 3.28 ++ 1.89 1.25-1.00 - - LOK-OBL 2.53 2.29 3.72 + 4.22 + + 1.25 - - 1.00 - - DRZAVA 2.69 2.23 3.81 + 4.39 + + 1.58 - - 1.93 - PODJETJA 2.19 2.34 3.13 ++ 2.00 1.38-1.07 - - št. enot 151 62 32 18 24 15

A. Ferligoj: Razvrščanje v skupine 43 Opis skupin skupina število opis enot skupine 1 62 POVPREČNA 2 32 YES - SAYERS 3 18 BAD GUYS 4 24 NO - SAYERS 5 15 GOOD GUYS