UVOD DEFINICIJA: Statistika planiranje i provođenje pokusa skupljanje podataka interpretacija

Σχετικά έγγραφα
numeričkih deskriptivnih mera.

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

4. MJERE DISPERZIJE. Josipa Perkov, prof., pred. 1

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu

3 Populacija i uzorak

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

ELEKTROTEHNIČKI ODJEL

18. listopada listopada / 13

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

PISMENI ISPIT IZ STATISTIKE

7 Algebarske jednadžbe

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Aritmetička sredina Medijan Mod. Harmonijska sredina

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

RIJEŠENI ZADACI I TEORIJA IZ

Matematička analiza 1 dodatni zadaci

Operacije s matricama

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

STATISTIKA I OSNOVE FIZIKALNIH MJERENJA

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

3.1 Granična vrednost funkcije u tački

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Uvod u matematičku statistiku

GLAZBENA UMJETNOST. Rezultati državne mature 2010.

Riješeni zadaci: Limes funkcije. Neprekidnost

41. Jednačine koje se svode na kvadratne

Verovatnoća i Statistika I deo Teorija verovatnoće (zadaci) Beleške dr Bobana Marinkovića

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Linearna algebra 2 prvi kolokvij,

Izbor statističkih testova Ana-Maria Šimundić

Funkcije dviju varjabli (zadaci za vježbu)

KONTINUIRANE SLUČAJNE VARIJABLE

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

Riješeni zadaci: Nizovi realnih brojeva

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

PRIMJER 3. MATLAB filtdemo

Statistika. 1. Uvodna razmatranja o statistici

Linearna algebra 2 prvi kolokvij,

Teorijske osnove informatike 1

Pismeni ispit iz matematike GRUPA A 1. Napisati u trigonometrijskom i eksponencijalnom obliku kompleksni broj, zatim naći 4 z.

Zadaci iz trigonometrije za seminar

Elementi spektralne teorije matrica

INTELIGENTNO UPRAVLJANJE

1.4 Tangenta i normala

IspitivaƬe funkcija: 1. Oblast definisanosti funkcije (ili domen funkcije) D f

MATEMATIKA Pokažite da za konjugiranje (a + bi = a bi) vrijedi. a) z=z b) z 1 z 2 = z 1 z 2 c) z 1 ± z 2 = z 1 ± z 2 d) z z= z 2

TRIGONOMETRIJSKE FUNKCIJE I I.1.

Determinante. a11 a. a 21 a 22. Definicija 1. (Determinanta prvog reda) Determinanta matrice A = [a] je broj a.

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

Računarska grafika. Rasterizacija linije

Eliminacijski zadatak iz Matematike 1 za kemičare

( , treći kolokvij) 3. Na dite lokalne ekstreme funkcije z = x 4 + y 4 2x 2 + 2y 2 3. (20 bodova)

Sadrˇzaj. Sadrˇzaj MATEMATIČKA STATISTIKA DESKRIPTIVNA STATISTIKA Ponovimo... 15

Ispitivanje toka i skiciranje grafika funkcija

Grafičko prikazivanje atributivnih i geografskih nizova

XI dvoqas veжbi dr Vladimir Balti. 4. Stabla

Kaskadna kompenzacija SAU

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

Numerička matematika 2. kolokvij (1. srpnja 2009.)

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Otpornost R u kolu naizmjenične struje

IZVODI ZADACI (I deo)

SISTEMI NELINEARNIH JEDNAČINA

IZRAČUNAVANJE POKAZATELJA NAČINA RADA NAČINA RADA (ISKORIŠĆENOSTI KAPACITETA, STEPENA OTVORENOSTI RADNIH MESTA I NIVOA ORGANIZOVANOSTI)

(BIO)STATISTIKA. skripta. studij: Prehrambena tehnologija i Biotehnologija. doc. dr. sc. Iva Franjić 2012.

VJEROJATNOST I STATISTIKA 2. kolokvij lipnja 2016.

Slučajne varijable. Diskretna slučajna varijabla X je promjenjiva veličina koja poprima vrijednosti iz skupa

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

10. domaća zadaća. 3. Neka je X neprekidna slučajna varijabla takva da je X N(0, 1). S točnošću od odredite:

Dvanaesti praktikum iz Analize 1

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Slučajne varijable Materijali za nastavu iz Statistike

Uvod u teoriju brojeva

Ovo nam govori da funkcija nije ni parna ni neparna, odnosno da nije simetrična ni u odnosu na y osu ni u odnosu na

TRIGONOMETRIJA TROKUTA

1 Promjena baze vektora

Mate Vijuga: Rijeseni zadaci iz matematike za srednju skolu 2. ARITMETICKI I GEOMETRIJSKI NIZ, RED, BINOMNI POUCAK. a n ti clan aritmetickog niza

NOMENKLATURA ORGANSKIH SPOJEVA. Imenovanje aromatskih ugljikovodika

Obrada signala

Uvod u neparametarske testove

Dijagonalizacija operatora

Program testirati pomoću podataka iz sledeće tabele:

Više dokaza jedne poznate trigonometrijske nejednakosti u trokutu

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

MERE DISPERZIJE ( VARIJABILNOSTI )

Zavrxni ispit iz Matematiqke analize 1

Matematika 1 - vježbe. 11. prosinca 2015.

Transcript:

OSNOVE STATISTIKE

UVOD DEFINICIJA: Statistika je grana matematike koja obuhvaća sakupljanje, analizu, interpretaciju i prezentaciju podataka te izradu predviđanja koja se temelje na tim podacima. Smatra se granom matematike, veliku važnost u korištenju statistike imaju i planiranje i provođenje pokusa, odnosno skupljanje podataka koji će se analizirati (negativni primjer: Hawthorne study), ali i interpretacija dobivenih rezultata (lažna korelacija)! Navodno su prve statističke metode korištene čak u 5 stoljeću p.n.e. Najstariji zapisi o korištenju statistike potječu iz 9. stoljeća (arapski znanstvenik Al-Kindi u svrhu izučavanja kodiranih poruka). U 14 stoljeću nastaju zapisi Nuova Cronica (povijest Firenze) sadrže niz statističkih podataka o populaciji, edukaciji i sl. Matematički razvoj ide usporedno s razvojem teorije vjerojatnosti

UVOD Pojam statistika je prvobitno izveden iz latinskog izraza statisticum collegium (vijeće država) te talijanske riječi statista (državnik ili političar). Njemačka riječ Statistik uvedena od Gottfrieda Achenwalla (1749 god.) je originalno značila analizu podataka o državi. Značenje sakupljanja i analize podataka statistika je dobila početkom 19. stoljeća, a riječ je u engleski jezik uveo Sir John Sinclair. Statistiku dijelimo na deskriptivnu i induktivnu te matematičku i egzaktnu.

PODJELA STATISTIKE Deskriptivna statistika (engl. descriptive statistics) bavi se organizacijom sakupljenih podataka te njihovim sažetim opisom s pomoću numeričkih i grafičkih prikaza. Induktivna statistika (engl. inferential statistics) bavi se izvođenjem zaključaka o populaciji na temelju svojstava uzorka. Matematička statistika je proučavanje statistike s matematičke točke gledišta korištenje teorije vjerojatnosti, matematičke analize i linearne algebre. Egzaktna statistika je grana statistike koja daje točne rezultate za pripadne statističke testove. poddiscipline statistike korištene u prirodnim znanostima: biostatistika, kemometrika, data mining,

OSNOVNI POJMOVI Populacija (engl. population) je skup realnih ili hipotetskih objekata koji nas zanima. Populacija može imati konačno ili beskonačno mnogo objekata. Npr. populacija svih studenata kemije druge godine Preddiplomskog studija kemije ili populacija eksperimentalnih mjerenja koja bi sadržavala sve rezultate koji bi mogli biti opaženi ako se mjerenja provedu beskonačno mnogo puta pod istim uvjetima. Varijabla (engl. variable) je neko svojstvo svakog člana populacije (kontinuirane i diskretne varijable; dimenzionalnost). Uzorak (engl. sample) je skup opaženih rezultata. Cenzus (lat. census, u doba antičke Rimske republike popis svih odraslih muškaraca sposobnih za vojnu službu) je poznavanje podataka o svim objektima populacije. Cenzus rijetko postoji jer je prikupljanje svih podataka najčešće ili nemoguće ili preskupo.

OSNOVNI POJMOVI - Promatramo li empirijske podatke, često će se među njima javiti mjerenja jednakih vrijednosti - Frekvencija (f i ) nam kaže koliko se puta vrijednost neke varijable javila u uzorku ili populaciji - relativna frekvencija - f i /N - kumulativne frekvencije - kumulativne relativne frekvencije - distribucija frekvencija: poligon frekvencija i histogram, Pareto chart,

histogram

kumulativne relativne frekvencije

Pareto chart

Pareto chart

MJERE SREDIŠNJE (CENTRALNE) TENDENCIJE 1. Srednja vrijednost 2. Medijan 3. Mod

- izvod srednja vrijednost je ona oko koje je suma odstupanja nula SREDNJA VRIJEDNOST Srednja vrijednost ili aritmetička sredina (engl. mean ili arithmetic mean) predstavlja sumu svih podataka podijeljenu s ukupnim brojem podataka. Srednja vrijednost uzorka je definirana sa gdje n predstavlja ukupan broj podataka u uzorku. Srednja vrijednost populacije μ je definirana sa gdje N predstavlja ukupan broj podataka u populaciji.

PRIMJER Neka sljedeći podaci predstavljaju rezultate nekog mjerenja 41 11 29 7 37 1013 17 1009 5 23 31 13 2 19 3 Izračunajte srednju vrijednost. Rješenje: Srednja vrijednost tih podataka iznosi 150, 7. (Empirijsko je pravilo da se srednja vrijednost izrazi s jednim decimalnim mjestom više u odnosu na originalne podatke.) Ponovite prethodni račun bez vrijednosti 1013 za koju smo naknadno ustvrdili da je nepouzdana Rješenje: 89,1 Na srednju vrijednost znatno utječu veliki ili mali granični podaci!

MEDIJAN Medijan (engl. median) je vrijednost središnjeg podatka koja podatke poredane po veličini dijeli u dva jednako brojna dijela. Ako je broj podataka neparan medijan je vrijednost središnjeg podatka, a ako je broj podataka paran medijan predstavlja srednju vrijednost dva središnja podatka. također razlikujemo medijan uzorka i medijan populacije To znači da u sortiranom nizu podataka 50 % elemenata ima vrijednost manju ili jednaku medijanu te da 50 % elemenata ima vrijednost veću ili jednaku medijanu.

PRIMJER Neka sljedeći podaci predstavljaju rezultate nekog mjerenja: 41 11 29 7 37 1013 17 1009 5 23 31 13 2 19 3 Pronađite medijan. Rješenje: Podatke je prvo potrebno sortirati po veličini 2 3 5 7 11 13 17 19 23 29 31 37 41 1009 1013 Kako je broj podataka neparan, medijan je vrijednost središnjeg podatka - 19. Ponovite prethodni račun bez vrijednosti 1013 za koju smo naknadno ustvrdili da je nepouzdana Ako je broj podataka paran, medijan će biti srednja vrijednost dva središnja podatka 2 3 5 7 11 13 17 19 23 29 31 37 41 1009 U ovom slučaju medijan iznosi 18,0. Na medijan znatno manje utječu veliki ili mali granični podaci nego što je to slučaj kod srednje vrijednosti!

MOD Mod (engl. mode) je vrijednost podatka koji se najčešće ponavlja. PRIMJER Neka sljedeći podaci predstavljaju rezultate nekog mjerenja 11 11 3 7 13 11 17 11 5 23 13 13 2 19 11 Pronađite mod. Rješenje: Podatke je korisno poredati sortirati po veličini (ali nije nužno) 2 3 5 7 11 11 11 11 11 13 13 13 17 19 23 Mod je 11.

PRIMJER Neka sljedeći podaci predstavljaju rezultate nekog mjerenja 2 3 5 7 11 13 17 19 23 29 31 37 41 1009 1013 Pronađite mod. Rješenje: Moda nema (nije pravilno reći da je mod 0!). Neka sljedeći podaci predstavljaju rezultate nekog mjerenja 2 3 5 7 11 11 11 13 17 17 17 19 23 29 31 Pronađite mod. Rješenje: Modovi su 11 i 17. Ovakav skup podataka je bimodalan.

MJERE SREDIŠNJE (CENTRALNE) TENDENCIJE - ZAKLJUČAK

MJERE VARIJABILNOSTI (rasipanja vrijednosti oko središnje tendencije)

Raspon podatka (engl. data range) je razlika između maksimalne i minimalne vrijednosti podataka R = x max x min

VARIJANCIJA Varijancija uzorka (engl. sample variance) je suma kvadrata odstupanja svih podataka od njihove srednje vrijednosti podijeljene s n 1 gdje n predstavlja ukupan broj podataka u uzorku. Varijancija populacije (engl. population variance) je vrijednost sume kvadrata odstupanja svih podataka od njihove srednje vrijednosti podijeljene s N gdje N predstavlja ukupan broj podataka u populaciji. - izvod

STANDARDNA DEVIJACIJA Standardna devijacija uzorka (engl. sample standard deviation) je pozitivna vrijednost drugog korijena varijancije uzorka gdje n predstavlja ukupan broj podataka u uzorku. Standardna devijacija populacije (engl. population standard deviation) je pozitivna vrijednost drugog korijena varijancije populacije gdje N predstavlja ukupan broj podataka u populaciji.

KOEFICIJENT VARIJACIJE Koeficijent varijacije uzorka (engl. sample coefficient of variation) je omjer vrijednosti standardne devijacije uzorka sa srednjom vrijednosti podataka u uzorku Koeficijent varijacije populacije (engl. population coefficient of variation) je omjer vrijednosti standardne devijacije populacije sa srednjom vrijednosti podataka u populaciji - normalizirana mjera disperzije pogodnija je za uspoređivanje od standardne devijacije, jer je standardna devijacija ovisna o srednjoj vrijednosti, CVar je bezdimenzijska veličina, može biti izražena u postocima, često se koristi u kromatografiji, problem nastupa kada je srednja vrijednost oko nule.

KOEFICIJENT VARIJACIJE Primjer: Mjerili smo visinu učenica u nekom razredu i dobili smo srednju vrijednost od 140,91cm i standardnu devijaciju 10,34 cm. Zatim smo mjerili visinu učenika u istom razredu i dobili smo srednju vrijednost 152,36 cm, sa standardnom devijacijom s=7,25 cm. Usporedbom koeficijenata varijance: CV A = 10,34/140.91=0,07 CV B =7,25/152,36=0,05 Vidimo da je varijabilnost u visini učenica 1,4 puta veća od varijabilnosti u visini učenika: CV A / CV B =0,07/0,05=1,4

Kvantili kvantili su vrijednosti statističkog obilježja koje statistički niz dijele na q jednakih dijelova kvantili se dijele s obzirom na broj intervala na koji dijele niz podataka: - kvantil drugog reda dijeli niz podataka na dva jednaka dijela (medijan?) - kvantili trećeg reda su tercili i dijele niz podataka na tri dijela - kvantili četvrtog reda su kvartili i dijele niz podataka na četiri dijela - kvintili - najčešće se koriste kvartili, a zatim decili i percentili broj kvantila je uvijek q-1, odnosno za kvantil drugog reda imamo jedan kvantil, za kvantil trećeg reda (tercil) imamo 2 kvantila, za kvantil četvrtog reda (kvartil) imamo 3 kvantila, sa statističke točke gledišta, k-ti kvantil q predstavlja onu vrijednost x za koju možemo reći da je vjerojatnost da nasumična varijabla bude manja od x iznosi najviše k/q. Također, vjerojatnost da nasumična varijabla bude veća od x iznosi najviše (q-k/q) ili 1-(k/q).

Kvantili kvartili su vrijednosti statističkog obilježja koje statistički niz dijele na 4 jednaka dijela, mogu se podijeliti na donji i gornji kvartil donji kvartil dijeli statistički niz na dva dijela u omjeru 1:3, odnosno preciznije 25 % elemenata statističkog skupa ima vrijednost manju ili jednaku donjem kvartilu, gornji kvartil dijeli statistički niz na dva dijela u omjeru 3:1, odnosno preciznije 75 % elemenata statističkog skupa ima vrijednost manju ili jednaku gornjem kvartilu srednji kvartil je često medijan i dijeli statistički niz u dva jednaka dijela 1:1, odnosno 50 % elemenata statističkog skupa ima vrijednost manju ili jednaku srednjem kvartilu, a 50 % elemenata statističkog skupa ima vrijednost veću od srednjeg kvartila interkvartilna razlika - razlika između donjeg i gornjeg kvartila - predstavlja raspon unutar kojeg se nalazi središnjih 50 % statističkog niza vrlo često se koristi.

Kvantili PRIMJER Odredite prvi i treći kvartil za slijedeći niz podataka: 3, 6, 7, 8, 8, 10, 13, 15, 16, 20 Rješenje - prvi kvartil 10*(1/4) = 2,75 zaokružimo na 3, dakle treći element u slijedu predstavlja prvi kvartil 7 3, 6, 7, 8, 8, 10, 13, 15, 16, 20 -treći kvartil 10*(3/4)=7,5 zaokružimo na 8, dakle 15 3, 6, 7, 8, 8, 10, 13, 15, 16, 20

Kvantili PRIMJER Mjerili smo visinu učenica u nekom razredu i dobili smo slijedeće vrijednosti u cm: 140, 141, 138, 140, 122, 160, 154, 132, 148, 135, 140 Odredite prvi i treći kvartil. Rješenje: Najprije vrijednosti poredamo po veličini: 122, 132, 135, 138, 140, 140, 140, 141, 148, 154, 160 Imamo ukupno 11 vrijednosti pa je prvi kvartil ¼*11= 2,75, zaokružimo na prvi veći broj, u ovom slučaju 3, znači prvi kvartil predstavlja treća vrijednost u nizu, a to je 135 cm. To znači da 25% učenica ima visinu jednaku ili manju 135 cm. Ili 75 % učenica je više od 135 cm. Treći kvartil: ¾*11= 8,25, znači treći kvartil predstavlja deveta vrijednost u nizu - 148 cm. To znači da 75% učenica ima visinu jednaku ili manju od 148 cm. Ili 25 % učenica je više od 148 cm.

Kvantili Primjer: Odredite prvi i treći kvartil za slijedeći niz podataka: 28 23 59 25 23 20 31 48 32 Rješenje: Poredamo ih po redu: 20 23 23 25 28 31 32 48 59 Imamo 9 podataka. Prvi kvartil je ¼ * 9 = 2,25, znači treći podatak je prvi kvartil 23. Treći kvartil je ¾ * 9 = 6,75, znači treći kvartil je sedmi podatak 32.