UVOD U STATISTIČKO ZAKLJUČIVANJE

Σχετικά έγγραφα
Osnove teorije uzoraka

nepoznati parametar θ jednak broju θ 0, u oznaci H 0 (θ =θ 0 ), je primer proste hipoteze. Ako hipoteza nije prosta, onda je složena.

Procjena parametara. Zadatak 4.1 Neka je X 1, X 2,..., X n slučajni uzorak iz populacije s konačnim očekivanjem µ i varijancom σ 2.

OPISNA STATISTIKA GRAFIČKE METODE. Pravila kolokvija PROMJENE RASPOREDA: Dozvoljene formule s weba (M. Grbić) HISTOGRAMI

Centralni granični teorem i zakoni velikih brojeva

Sadrˇzaj. Sadrˇzaj MATEMATIČKA STATISTIKA DESKRIPTIVNA STATISTIKA Ponovimo... 15

Sadrˇzaj Sadrˇzaj 12 TEORIJA PROCJENA

TESTIRANJE ZNAČAJNOSTI RAZLIKE

PROCJENE PARAMETARA POPULACIJE

Riješeni zadaci: Nizovi realnih brojeva

3 Populacija i uzorak

BILJEŠKE ZA PREDAVANJA (za internu uporabu)

Granične vrednosti realnih nizova

Dvanaesti praktikum iz Analize 1

KOMUTATIVNI I ASOCIJATIVNI GRUPOIDI. NEUTRALNI ELEMENT GRUPOIDA.

VJEROVATNOĆA-POJAM. Definicija vjerovatnoće Σ = f x f. f f. f x f. f f ... = Σ = Σ. i...

numeričkih deskriptivnih mera.

TRIGONOMETRIJSKE FUNKCIJE I I.1.

ELEKTROTEHNIČKI ODJEL

Operacije s matricama

2 tg x ctg x 1 = =, cos 2x Zbog četvrtog kvadranta rješenje je: 2 ctg x

Niz i podniz. Definicija Svaku funkciju a : N S zovemo niz u S. Za n N pišemo a(n) = a n i nazivamo n-tim članom niza.

PARCIJALNI IZVODI I DIFERENCIJALI. Sama definicija parcijalnog izvoda i diferencijala je malo teža, mi se njome ovde nećemo baviti a vi ćete je,

(Hi-kvadrat test) r (f i f ti ) 2 H = f ti. i=1

IZVODI ZADACI (I deo)

INTEGRALNI RAČUN. Teorije, metodike i povijest infinitezimalnih računa. Lucija Mijić 17. veljače 2011.

2.2 Srednje vrijednosti. aritmetička sredina, medijan, mod. Podaci (realizacije varijable X): x 1,x 2,...,x n (1)

( x) ( ) dy df dg. =, ( x) e = e, ( ) ' x. Zadatak 001 (Marinela, gimnazija) Nađite derivaciju funkcije f(x) = a + b x. ( ) ( )

M086 LA 1 M106 GRP. Tema: Baza vektorskog prostora. Koordinatni sustav. Norma. CSB nejednakost

IZVODI ZADACI ( IV deo) Rešenje: Najpre ćemo logaritmovati ovu jednakost sa ln ( to beše prirodni logaritam za osnovu e) a zatim ćemo

Trigonometrija 2. Adicijske formule. Formule dvostrukog kuta Formule polovičnog kuta Pretvaranje sume(razlike u produkt i obrnuto

Apsolutno neprekidne raspodele Raspodele apsolutno neprekidnih sluqajnih promenljivih nazivaju se apsolutno neprekidnim raspodelama.

Osnovni primer. (Z, +,,, 0, 1) je komutativan prsten sa jedinicom: množenje je distributivno prema sabiranju

Iskazna logika 3. Matematička logika u računarstvu. novembar 2012

PRAVA. Prava je u prostoru određena jednom svojom tačkom i vektorom paralelnim sa tom pravom ( vektor paralelnosti).

Matematička analiza 1 dodatni zadaci

PRIMJER 3. MATLAB filtdemo

Sume kvadrata. mn = (ax + by) 2 + (ay bx) 2.

Teorijske osnove informatike 1

Statistika. Statističke metode služe nam da uočimo pravilnosti i zakonitosti po kojima se vlada cijeli kolektiv, a ne jedna odredena jedinka.

4 Testiranje statističkih hipoteza

Testiranje statističkih hipoteza Materijali za nastavu iz Statistike

DISKRETNA MATEMATIKA - PREDAVANJE 7 - Jovanka Pantović

3.1 Granična vrednost funkcije u tački

Neka je a 3 x 3 + a 2 x 2 + a 1 x + a 0 = 0 algebarska jednadžba trećeg stupnja. Rješavanje ove jednadžbe sastoji se od nekoliko koraka.

Osnove statistike sažetak.

Kontrolni zadatak (Tačka, prava, ravan, diedar, poliedar, ortogonalna projekcija), grupa A

radni nerecenzirani materijal za predavanja R(f) = {f(x) x D}

Funkcije dviju varjabli (zadaci za vježbu)

Metoda najmanjih kvadrata

Testiranje statistiqkih hipoteza

7 Algebarske jednadžbe

(P.I.) PRETPOSTAVKA INDUKCIJE - pretpostavimo da tvrdnja vrijedi za n = k.

Linearna algebra 2 prvi kolokvij,

Općenito, iznos normalne deformacije u smjeru normale n dan je izrazom:

MJERA I INTEGRAL završni ispit 4. srpnja (Knjige, bilježnice, dodatni papiri i kalkulatori nisu dozvoljeni!)

18. listopada listopada / 13

Elementi spektralne teorije matrica

Definicija: Hipoteza predstavlja pretpostavku koja je zasnovana na određenim činjenicama (najčešće naučnim ili iskustvenim).

Trigonometrijske funkcije

Cauchyjev teorem. Postoji više dokaza ovog teorema, a najjednostvniji je uz pomoć Greenove formule: dxdy. int C i Cauchy Riemannovih uvjeta.

UNIVERZITET U NIŠU ELEKTRONSKI FAKULTET SIGNALI I SISTEMI. Zbirka zadataka

Riješeni zadaci: Limes funkcije. Neprekidnost

Funkcija gustoće neprekidne slučajne varijable ima dva bitna svojstva: 1. Nenegativnost: f(x) 0, x R, 2. Normiranost: f(x)dx = 1.

1 Promjena baze vektora

Univerzitet u Sarajevu Građevinski fakultet Katedra za matematiku, programiranje, nacrtnu geometriju i fiziku

Geodetski fakultet, dr. sc. J. Beban-Brkić Predavanja iz Matematike OSNOVNI TEOREMI DIFERENCIJALNOG RAČUNA

Pismeni ispit iz matematike Riješiti sistem jednačina i diskutovati rješenja sistema u zavisnosti od parametra: ( ) + 1.

Pošto pretvaramo iz veće u manju mjernu jedinicu broj 2.5 množimo s 1000,

MATRICE I DETERMINANTE - formule i zadaci - (Matrice i determinante) 1 / 15

Matematika 1 - vježbe. 11. prosinca 2015.

STATISTIKA S M E I M N I AR R 7 : METODE UZORKA

MATEMATIČKA STATISTIKA

Uvod u teoriju brojeva

1.4 Tangenta i normala

Definicija: Beskonačni niz realnih brojeva je funkcija a : N R. Umjesto zapisa a(1), a(2),,a(n), može se koristiti zapis a 1,

Tačkaste ocene parametara raspodele

PISMENI ISPIT IZ STATISTIKE

a M a A. Može se pokazati da je supremum (ako postoji) jedinstven pa uvodimo oznaku sup A.

VJEROJATNOST I STATISTIKA 2. kolokvij lipnja 2016.

SISTEMI NELINEARNIH JEDNAČINA

Ĉetverokut - DOMAĆA ZADAĆA. Nakon odgledanih videa trebali biste biti u stanju samostalno riješiti sljedeće zadatke.

Veleučilište u Rijeci Stručni studij sigurnosti na radu Akad. god. 2011/2012. Matematika. Monotonost i ekstremi. Katica Jurasić. Rijeka, 2011.

Strukture podataka i algoritmi 1. kolokvij 16. studenog Zadatak 1

Teorija verovatnoće. Definicija: Skup svih mogućih ishoda nekog eksperimenta nazivamo skup elementarnih dogaďaja i označavamo sa.

Zadaci sa prethodnih prijemnih ispita iz matematike na Beogradskom univerzitetu

Greške merenja i statistička obrada podataka

Uvod u neparametarske testove

Integral i mjera. Braslav Rabar. 13. lipnja 2007.

Polarizacija. Procesi nastajanja polarizirane svjetlosti: a) refleksija b) raspršenje c) dvolom d) dikroizam

3n an = 4n3/2 +2n+ n 5n 3/2 +5n+2 n a 2 n = n 2. ( 2) n Dodatak. = 0, lim n! 2n 6n + 1

VJEROJATNOST I STATISTIKA Popravni kolokvij - 1. rujna 2016.

Str

STATISTIKA. 1. Osnovni pojmovi

NOMENKLATURA ORGANSKIH SPOJEVA. Imenovanje aromatskih ugljikovodika

Kaskadna kompenzacija SAU

METODA SEČICE I REGULA FALSI

Ispitivanje toka i skiciranje grafika funkcija

RIJEŠENI ZADACI I TEORIJA IZ

1. zadatak , 3 Dakle, sva kompleksna re{ewa date jedna~ine su x 1 = x 2 = 1 (dvostruko re{ewe), x 3 = 1 + i

Transcript:

STROJNO UČENJE Uvod u statističko zaključivaje 1/22 STROJNO UČENJE Uvod u statističko zaključivaje 2/22 UVOD U STATISTIČKO ZAKLJUČIVANJE riječ STATISTIKA (lat. status = staje) Statistika deskriptiva iferecijala uivarijata bivarijata multivarijata riječ varijable (egl. variable = variate = factor) Varijable: - zavise, kriterijske varijable (egl. depedet, criterio, respose variable) - ezavise, prediktorske varijable (egl. idepedet, predictior, cotrolled, regressor variable) Osovi pojmovi objekti varijable ( obilježja, začajke) mjere skale: omiala kvalitative uređaja ( relacija < ) [primjer: skala tvrdoće] kvatitative itervala (operacije + i -) [primjer C, F] racioala (operacije +, -, *, /) [primjer K] Podjela prema vrijedostima koje poprimaju: kvalitative vs. kvatitative diskrete vs. kotiuirae Ciljevi statističke aalize: skupljaje podataka maipulacija podacima iterpretacija Deskriptiva statistika Mjere cetrale tedecije: aritmetička sredia (egl. mea) medija mod redukcija podataka alat za iferecijalo zaključivaje idetifikacija relacija ili asocijacija (grupiraja) među podacima

STROJNO UČENJE Uvod u statističko zaključivaje 3/22 STROJNO UČENJE Uvod u statističko zaključivaje 4/22 Mjere rasipaja Distribucije frekvecija relative kumulative varijaca (sredje kvadrato odstupaje) stadarda devijacija rag sredje apsoluto odstupaje Grafički prikazi empirijskih distribucija : histogrami poligoi box ad whisker plot Teorijske Distribucije bioma ormala t distribucija χ 2 F distribucija Iz tablica za jediiču ormalu distribuciju U očitavamo: P( -1.65 < U < 1.65) = 90% P( -1.96 < U < 1.96) = 95% P( -2.58 < U < 2.58) = 99% Neka je X ormalo distribuiraa, tj. X: N(µ, σ 2 ). Vrijedi trasformacija: STANDARDIZACIJA trasformacijom - svođeje X: N(µ, σ 2 ) a U sa U = X µ. σ X:N( µ, σ 2 ) P( µ - 1.65σ < X < µ + 1.65σ) = 90% P( µ - 1.96σ < X < µ + 1.96σ) = 95% P( µ - 2.58σ < X < µ + 2.58σ) = 99% Normala distribucija * 0.4 0.3 0.2 0.1 Normala distribucija s očekivajem µ = 0 i stadardom devijacijom σ = 1. X : N(0,1) - Ozačavamo je s U ili Z. Vrijedosti vjerojatosti tj. površia ispod krivulje U dai su u statističkim tablicama. -3-2 -1 1 2 3 Velika većia obilježja u prirodi distribuiraa je prema ormaloj razdiobi. * Uobičajea ozaka za ormalu distribuciju s parametrima: očekivajem µ i varijacom σ 2 je N(µ, σ 2 ).

STROJNO UČENJE Uvod u statističko zaključivaje 5/22 STROJNO UČENJE Uvod u statističko zaključivaje 6/22 populacija INFERENCIJALNA STATISTIKA smjer zaključivaja uzorak Populacija skup svih mogućih vrijedosti slučaje varijable. Uzorak podskup populacije. Parametar je bilo koja fukcija populacije, eko svojstvo populacije koje as zaima, pr. sredja vrijedost, stadarda devijacija, proporcija, itd. Parametar se odosi a populaciju i ozačava se malim grčkim slovima (µ, σ, π itd). Često am vrijedosti parametra populacija isu dostupe te ih procjejujemo a temelju uzorka. Procjea ekog parametra populacije a temelju uzorka aziva se statistika (ili procjeitelj) i ozačava se malim slovima ( x, s, p, ). Općeito je vrijedost statistike i epozatog parametra populacije daa s izrazom: Statistika = Parametar_populacije ± pogreška Taj se izraz može zapisati u obliku: Parametar_populacije = Statistika ± pogreška epozato Oo što želimo zati je s kojom točošću (precizošću) i s kojom pouzdaošću (vjerojatosti), eka statistika procjejuje parametar populacije. Parametar je svojstvo populacije dok je statistika fukcija uzorka (podskupa te populacije) te za svaki ovi uzorak izvuče iz iste populacije (istog osovog skupa) možemo dobiti različitu vrijedost statistike. Ali, ako zamo kako je statistika uzorka distribuiraa tj. ako zamo kako je distribuiraa vrijedost statistike ( x ) a temelju beskoačo mogo uzoraka iste veličie izvučeih iz te populacije (to je distribucija vjerojatosti statistike uzorka) tada uz pomoć vjerojatosti možemo procijeiti s kojom pouzdaošću se parametar populacije alazi u određeim graicama. Dakle, možemo odrediti graice oko x u kojima se alazi parametar µ i pridružeu vjerojatost za takvo odstupaje. (µ = x ± pogreška, uz određeu vjerojatost, tj. pouzdaost). Ta se distribucija vjerojatosti statistike uzorka aziva se DISTRIBUCIJA UZORKOVANJA (egl. samplig distributio) Pozavaje distribucije uzorkovaja eke statistike temelj je za iferecijalo statističko zaključivaje (itervale procjee parametara populacije, testiraje hipoteza). Svaki parametar populacije (sredja vrijedost µ, proporcija π, varijaca σ 2, ) ima svoju distribuciju uzorkovaja. Važo svojstvo distribucije vjerojatosti statistike su jezio očekivaje i stadarda devijacija. Ta se stadarda devijacija distribucije eke statistike aziva STANDARDNA POGREŠKA (SE). Od posebog je začeja distribucija uzorkovaja sredje vrijedosti. µ = x ± pogreška

STROJNO UČENJE Uvod u statističko zaključivaje 7/22 STROJNO UČENJE Uvod u statističko zaključivaje 8/22 Distribucija uzorkovaja sredje vrijedosti. CENTRALNI GRANIČNI TEOREM Neka je daa populacija sa sredjom vrijedošću µ i stadardom devijacijom σ. Neka je x sredja vrijedost od slučajo odabraih ezavisih opservacija iz te populacije. Distribucija uzorkovaja sredje vrijedosti približava se ormaloj sa očekivajem µ i stadardom devijacijom σ, kada µ = x ± pogreška. No sada, a temelju cetralog graičog teorema koji am kaže da su sredje vrijedosti uzoraka veličie također distribuirae ormalo sa stadardom pogreškom SE = σ, možemo pisati: µ = x ± u p σ, sa pouzdaošću I(u p ), gdje je u 0 vrijedost jediiče ormale razdiobe, a I(u p ) pripada pouzdaost (vjerojatost). Te se vrijedosti očitavaju u statističkim tablicama. u p 1.64 1.96 2.58 pouzdaost I(u p ) 90% 95% 99% (pogledati tekst i simulacije a adresi http://www.ruf.rice.edu/~lae/rvls.html, posebo za ilustraciju CGT pogledati aimirai primjer a adresi http://www.ruf.rice.edu/~lae/stat_sim/samplig_dist/idex.html) Stadarda pogreška (egl. stadard error) ekog parametra je sadarda devijacija distribucije uzorkovaja tog parametra. Poekad se ozačava sa SE. Stadarda pogreška distribucije uzorkovaja σ sredje vrijedosti je SE = σ X X =, gdje je X slučaja varijabla osovog skupa (a primjer: visie populacije studeata Zagrebačkog Sveučilišta, težie proizvoda koje proizvede eka tvorica, itd.). Često se umjesto σ X piše samo σ. Itervala procjea očekivaja (za velike uzorke, 30) µ = x ± u p σ, sa pouzdaošću I(u p ), dok je za male uzorke umjesto vrijedosti u p jediiče ormale distribucije vrijedost studetove t-distribucije koja se očitava iz statističkih tablica za zadai broj stupjeva slobode k, gdje je k=-1, a je broj elemeata u uzorku. µ = x ± t(k) σ, s pouzdaošću ovisom o t(k). Prije smo apomeuli da je Parametar = Statistika ± pogreška. Ako za statistiku koja as zaima odaberemo sredju vrijedost tada je

STROJNO UČENJE Uvod u statističko zaključivaje 9/22 STROJNO UČENJE Uvod u statističko zaključivaje 10/22 Cetrali graiči teorem (CGT) X µ U = σ Iz tvrdje CGT-a slijede formule za Itervale procjee očekivaja µ (za velike, >30): X :N( µ, σ 2 / ) P( x - 1.65 σ < µ < x + 1.65 σ ) = 90% P( x - 1.96 σ < µ < x + 1.96 σ ) = 95% P( x - 2.58 σ < µ < x + 2.58 σ ) = 99% Naka je X je ormalo distribuiraa sl. varijabla (kraće ćemo reći ormala distribucija). Naka su parametri od X očekivaje 34 i stadarda devijacija 4. To zapisujemo X:N(34, 4 2 ). Kolika je vjerojatost da slučajo izvuče primjer iz te distribucije poprimi vrijedost veću od 30? P(X > 30) = P(U > (30 34)/4) ) = P(U > -1) = (očitavamo iz stat. tablica) = 0.841 Ako sada izvlačimo uzorak od 16 elemeata iz zadae distribucije X: N(34, 4 2 ) i račuamo sredju vrijedost, kolika je vjerojatost da sredja vrijedost izračuata iz tog uzorka bude veća od 30? Prema CGT, X je distribuirao s očekivajem 34 i stadardom devijacijom SE = 4 16 = 1, dakle Bioma distribucija Slučaji pokus: dva moguća ishoda, A i oa. Vjerojatost događaja A, P(A) = π i vjerojatost da se e desi A, P(oA) = 1 - π. Promatramo jeda proizvod: proizvod je isprava s vjerojatošću π. Mogući događaji: A = proizvod je isprava, P(A) = π o A = proizvod je eisprava, P(oA) = 1 - π. Pretpostavimo da imamo izove od takvih ezavisih pokusa (Beroullijevi izovi). Kolika je vjerojatost da će se događaj A pojaviti točo x puta u tom izu? Uzorak od proizvoda, kolika je vjerojatost da točo x od proizvoda ( 0 x ) bude ispravo? Bioma slučaja varijabla s parametrima i π. Kolika je vjerojatost da će se događaj A pojaviti točo x puta u tom izu? tj. Kolika je vjerojatost da slučaja varijabla X poprimi vrijedost x? x x x P(X = x) = π ( 1 π ) (1) P( X > 30) =(stadardizacija)=p(u > (30 34)/1) ) = P( U > -4) = 1. 0.4 0.3 0.2 0.1-7.5-5 -2.5 2.5 5 7.5

STROJNO UČENJE Uvod u statističko zaključivaje 11/22 STROJNO UČENJE Uvod u statističko zaključivaje 12/22 Aproksimacija biome ormalom (Moivre-Laplaceova formula) x π π ( ) ( ) ( ) 1 x 2 P x1 X x2 P U. 1 π π 1 π π Uz uvjet π > 5 i π(1-π) > 5. Proporcija X bioma slučaja varijabla s parametrima i π, tj. X:B(π, ) Proporcija je omjer P = X/. Kolika je vjerojatost da će se događaj A pojaviti između x 1 i x 2 puta u tom izu od pokusa? x2 i i P(x 1 X x 2 ) = π ( 1 π ). (2) i= x1 i Očekivaje biome slučaje varijable X je E(X) = π Varijaca biome slučaje varijable V(X) = σ 2 = π(1-π) = 15, π = 0.2 x = 4 P(X = 4) = 0.188 Da li je povoljo kladiti se da će u 24 uzastopa bacaja igraće kocke barem jedom pasti dvostruka šestica? N = 300, π = 0.2, P( 100 > X > 50) =?

STROJNO UČENJE Uvod u statističko zaključivaje 13/22 STROJNO UČENJE Uvod u statističko zaključivaje 14/22 Distribucija uzorkovaja proporcije. Promatramo izove od elemeata. Zaima as broj elemeata u tom izu od koji imaju eko svojstvo A. Ozačimo taj broj s x. (Beroullijevi izovi) Proporcija P je omjer P = X/ Primjer. Neka je daa eka hipoteza h. Pretpostavimo da imamo uzorak sastavlje 14 elemeata tj. primjera za učeje. Ako 8 od 14 primjera zadovoljava hipotezu h tada je proporcija uspjeha hipoteze h a tom skupu (uzorku) jedaka p 1 = x/ = 8/14. Uzmimo eki drugi uzorak tj. skup primjera za učeje i eka je a tom skupu proporcija valjaosti hipoteza p 2 = 5/14. Neka je da eki treći skup primjera za učeje iste veličie i eka je a jemu p 3 = 7/14.. Ako astavimo s tim postupkom u dobivamo distribuciju uzorkovaja proporcije koju ozačavamo s P. (Posljedica Moivre -Laplaceovog teorema - CGT) Distribucija uzorkovaja proporcije za velike približava se ormaloj distribuciji s Očekivajem π i Stadardom devijacijom σ P = π( 1 π). Itervale procjee proporcije Parametar populacije = statistika_uzorka ± pogreška Primjeri: π = p ± pogreška, µ = x ± pogreška. Na temelju pozate distribucije uzorkovaja proporcije izvode se itervale procjee proporcije. P( p - 2.58 P( p 1.96 π( 1 π) < π < p + 2.58 π( 1 π) < π < p + 1.96 π( 1 π) ) = 99% π( 1 π) ) = 95% Jeda strijelac je pogodio 5 puta u metu od 10 pokušaja. Drugi strijelac je pogodio 50 puta u metu od 100 pokušaja. Što možemo reći o pravoj proporciji pogodaka jedog i drugog strijelca. P( 0.5 1.96 0.5(1 0.5) 10 < π < 0.5 + 1.96 P( 0.5 1.96 0.5(1 0.5) 100 < π < 0.5 + 1.96 Prvi strijelac: P( 0.5 1.96*0.158 < π < 0.5 + 1.96*0.158) = 95% P( 0.5 0.31 < π < 0.5 + 0.31) = 95% P( 0.19 < π < 0.81) = 95% Drugi strijelac: P( 0.5 1.96*0.05 < π < 0.5 + 1.96*0.05) = 95% P( 0.5 0.098 < π < 0.5 + 0.098) = 95% P( 0.402 < π < 0.598) = 95% 0.5(1 0.5) ) = 95% 10 0.5(1 0.5) ) = 95% 100

STROJNO UČENJE Uvod u statističko zaključivaje 15/22 STROJNO UČENJE Uvod u statističko zaključivaje 16/22 Testiraje hipoteza 1. direkto statističko zaključivaje (iferecijalo): točkove ili itervale procjee - uzorak koristimo za procjeu parametra populacije. Postupak: Postavljaju se dvije međusobo isključive hipoteze koje zajedički iscrpljuju sve mogućosti: 2. idirekto: testiraje hipoteza Uzorak podržava ili diskreditira a priori postavljeu tvrdju ili pretpostavku o stvaroj vrijedosti parametra populacije Hipoteza o populacioom parametru proizlazi iz prethodih ispitivaja teoretskih pretpostavki. Ako postupkom testiraja ađemo da je H 0 eprihvatljiva s aspekta vjerojatosti, tada prihvaćamo (vjerujemo) u alterativu hipotezu. dvostrai test jedostrai testovi H 0 θ = a H 1 θ a H 0 θ = a H 1 θ < a ili H 0 θ = a H 1 θ > a ili Isto kao što e možemo aći 100% iterval pouzdaosti tako i testiraje e daje 100% sigurost u ispravost odluke već su pouzdaosti s kojim radimo 90, 95, 99%. Naime, u postupku testiraja uaprijed zadajemo (i time kotroliramo) pogrešku (tj. rizik s kojim radimo statistički test) a to je vjerojatost odbacivaja istiite hipoteze. Ta se vjerojatost aziva ivo sigifikatosti (ivo začajosti) ili pogreška prvog reda i ozačava se s α. U zadja dva slučaja moramo biti siguri da θ > a, θ < a, ije moguće!!! Površia odgovara vjerojatosti α, tj. ivou sigifikatosti testa Površie zajedo odgovaraju vjerojatosti α, tj. ivou sigifikatosti testa jedostrai test dvostrai test Postavljaje hipoteza dešava se a logičkoj razii, tj. vezao je za problem pozavaja područja problema. Prihvaćaje hipoteze tj. vjerovaje u određeu hipotezu je stvar statističke odluke.

STROJNO UČENJE Uvod u statističko zaključivaje 17/22 STROJNO UČENJE Uvod u statističko zaključivaje 18/22 Uzorak od 100 elemeata dao je a) x = 19.1 b) x = 19.9 c) x = 16. H 0 µ = 20 H 1 µ 20 Pretpostavimo da zamo da je st.dev. populacije σ = 3. Pitaje je da li je moguće, tj. koliko je vjerojato da dobijemo sredju vrijedost uzorka x = 19.1 ako je µ = 20. Ako je ta vjerojatost mala oda smo skloi e vjerovati u pretpostavku iz ulte hipoteze. Pitaje je koliko je to malo vjerojato? Običo je to 1% ili 5% i aziva se ivo začajosti (sigifikatosti) i ozačava se s α. α je vjerojatost odbacivaja istiite hipoteze! Rizik testiraja koji se određuje uaprijed! b) x = 19.9, odaberemo α = 0.05 tj. 5%. Radimo dvostrai U - test. U = X µ 19.9 20 = = - 0.33 σ 3 100 Iz statističkih tablica slijedi da je vjerojatost 2*P (U < - 0.33) = 2*0.37 = 0.74 što je puo veće od α = 0.05 (koliki je ivo sigifikatosti testa) => prihvaćamo ultu hipotezu. Iterpretacija: Nemamo razloga, a temelju predočeog uzorka (uzorak od 100 elemeata čija je sredja vrijedost x =19.9), sumjati u istiitost ulte hipoteze! Vjerojatost da dobijemo sredju vrijedost uzorka (po apsolutoj vrijedosti jedaku ili veću od) x = 19.1 je 0.74, ako je stvara sredja vrijedost populacije 20. To je puo veća vjerojatost od 0.05 što je graiča vjerojatost s kojom radimo testiraje. Mogli bi reći da uzorak podržava tvrdju iz ulte hipoteze s vjerojatošću 0.74. a) x = 19.1, odaberemo α = 0.05 tj. 5%. Radimo dvostrai U - test. U = X µ 19.1 20 = = - 3 σ 3 100 Vjerojatost da je P (U < - 3) je praktički jedaka 0 (pa oda i 2*P (U < - 3) 0, jer radimo dvostrai test pa gledamo površie u oba repa), tj. ta je vjerojatost puo maja od 0.05 (koliki je ivo sigifikatosti testa) pa odbacujemo ultu hipotezu. Iterpretacija: Vjerojatost da a temelju uzorka od 100 elemeata dobijemo sredju vrijedost 19.1, ako je prava vrijedost 20, je praktički ula pa smo stoga skloi NE vjerovati u ultu hipotezu tj. odbacujemo je. Površia = 0.37-0.33 0.33 Dvostrai test: ukupa provršia (vjerojatost) 2*P (U < - 0.33) 2*0.37 = 0.74 Površia = 0.37

STROJNO UČENJE Uvod u statističko zaključivaje 19/22 STROJNO UČENJE Uvod u statističko zaključivaje 20/22 Pogreške prvog i drugog reda Prilikom testiraja možemo učiiti dva tipa pogrešaka. Greške I i II reda. Usporedba postupka statističkog testiraja i pravosudog postupka: H 0 Osumjičei je evi H 1 Osumjičei je kriv Odluka Stvaro staje suda Nevi Kriv Nevi pogreška Kriv pogreška Zaključak H 0 prihvaćamo Stvaro staje H 0 je istia H 0 odbacujemo α (greška I reda) H 0 je laž β (greška II reda) Vjerojatost prihvaćaja hipoteze H 0 kada je H 1 istia (dakle H 0 je laž)! U ašem primjeru postavljeih hipoteza: H 0 Osumjičei je evi H 1 Osumjičei je kriv to je slučaj kada je osumjičei zaista kriv o mi ga proglasimo eviim. β ovisi o: pravoj vrijedosti parametra o kojem raspravljamo (alterativa hipoteza), β pada kada je veća razlika između pretpostavljee i prave vrijedosti parametra koji se testira (distribucije su razdijeljee) pogrešci α, tj. β raste kada α pada i obruto, te jedostraom ili dvostraom testu, β stadardoj devijaciji populacije, β se povećava što je st.dev. populacije veća veličii uzorka, β se smajuje kada veličia uzorka raste. zadja dva parametra određuju stadardu pogrešku SE. Pogreška I reda ili α je pogreška koju uvijek možemo kotrolirati prilikom statističkog zaključivaja. Oa se zadaje uaprijed, a hipoteze se formuliraju tako da oa pogreška koja am je važija bude pogreška prvog reda α. Na primjer, u pravosudom postupku možemo učiiti dvije pogreške, da eviog čovjeka osudimo ili da krivog oslobodimo. Možemo se odlučiti da je važije kotrolirati vjerojatost pogreške da eviog čovjeka osudimo. Formuliramo hipoteze: H 0 Osumjičei je evi i H 1 Osumjičei je kriv. Pogreška prvog reda ili α je vjerojatost odbacivaja hipoteze H 0 kada je oa zapravo istiita, tj. u ovom slučaju vjerojatost da eviog čovjeka proglasimo krivim. Kada bi obruli hipoteze i stavili H 0 Osumjičei je kriv, tada bi zadavali uaprijed i time kotrolirali pogrešku da krivog čovjeka oslobodimo. Pogreška II reda ili β

STROJNO UČENJE Uvod u statističko zaključivaje 21/22 STROJNO UČENJE Uvod u statističko zaključivaje 22/22 Testiraje proporcija 1. Formuliraje statističke hipoteze H 0 π = 0.005 H 1 π < 0.005 (jedostrai, lijevi test područje odbacivaja hipoteze je a lijevo) Površia α=5% 0.4 0.3 0.2 2. Odredi statistiku za testiraje : proporcija P P π Zamo da vrijedi U = p( 1 p) 3. Odaberi ivo začajosti testa tj. pogrešku prvog reda α, eka je α = 5% i pripadu kritiču vrijedost očitaj iz tablica. Za odabrai ivo začajosti i jedostrai test u krit =- 1.64 Područje odbacivaja H 0-2.26 0.1-3 -2-1 1 2 3-1.64 0.0 Područje prihvaćaja H 0 4. Uzmi slučaja uzorak =2000 i izračuaj vrijedost statistike P a jemu, tj. p=3/2000=0.0015 0.0015 0.005 u = = 2.26 0.005(1 0.005) 2000 5. Doesi odluku: Ako je izračuata vrijedost statistike u < u krit odbaci ultu hipotezu. Kako je 2.26 < -1.64 H 0 odbacujemo!