STROJNO UČENJE Uvod u statističko zaključivaje 1/22 STROJNO UČENJE Uvod u statističko zaključivaje 2/22 UVOD U STATISTIČKO ZAKLJUČIVANJE riječ STATISTIKA (lat. status = staje) Statistika deskriptiva iferecijala uivarijata bivarijata multivarijata riječ varijable (egl. variable = variate = factor) Varijable: - zavise, kriterijske varijable (egl. depedet, criterio, respose variable) - ezavise, prediktorske varijable (egl. idepedet, predictior, cotrolled, regressor variable) Osovi pojmovi objekti varijable ( obilježja, začajke) mjere skale: omiala kvalitative uređaja ( relacija < ) [primjer: skala tvrdoće] kvatitative itervala (operacije + i -) [primjer C, F] racioala (operacije +, -, *, /) [primjer K] Podjela prema vrijedostima koje poprimaju: kvalitative vs. kvatitative diskrete vs. kotiuirae Ciljevi statističke aalize: skupljaje podataka maipulacija podacima iterpretacija Deskriptiva statistika Mjere cetrale tedecije: aritmetička sredia (egl. mea) medija mod redukcija podataka alat za iferecijalo zaključivaje idetifikacija relacija ili asocijacija (grupiraja) među podacima
STROJNO UČENJE Uvod u statističko zaključivaje 3/22 STROJNO UČENJE Uvod u statističko zaključivaje 4/22 Mjere rasipaja Distribucije frekvecija relative kumulative varijaca (sredje kvadrato odstupaje) stadarda devijacija rag sredje apsoluto odstupaje Grafički prikazi empirijskih distribucija : histogrami poligoi box ad whisker plot Teorijske Distribucije bioma ormala t distribucija χ 2 F distribucija Iz tablica za jediiču ormalu distribuciju U očitavamo: P( -1.65 < U < 1.65) = 90% P( -1.96 < U < 1.96) = 95% P( -2.58 < U < 2.58) = 99% Neka je X ormalo distribuiraa, tj. X: N(µ, σ 2 ). Vrijedi trasformacija: STANDARDIZACIJA trasformacijom - svođeje X: N(µ, σ 2 ) a U sa U = X µ. σ X:N( µ, σ 2 ) P( µ - 1.65σ < X < µ + 1.65σ) = 90% P( µ - 1.96σ < X < µ + 1.96σ) = 95% P( µ - 2.58σ < X < µ + 2.58σ) = 99% Normala distribucija * 0.4 0.3 0.2 0.1 Normala distribucija s očekivajem µ = 0 i stadardom devijacijom σ = 1. X : N(0,1) - Ozačavamo je s U ili Z. Vrijedosti vjerojatosti tj. površia ispod krivulje U dai su u statističkim tablicama. -3-2 -1 1 2 3 Velika većia obilježja u prirodi distribuiraa je prema ormaloj razdiobi. * Uobičajea ozaka za ormalu distribuciju s parametrima: očekivajem µ i varijacom σ 2 je N(µ, σ 2 ).
STROJNO UČENJE Uvod u statističko zaključivaje 5/22 STROJNO UČENJE Uvod u statističko zaključivaje 6/22 populacija INFERENCIJALNA STATISTIKA smjer zaključivaja uzorak Populacija skup svih mogućih vrijedosti slučaje varijable. Uzorak podskup populacije. Parametar je bilo koja fukcija populacije, eko svojstvo populacije koje as zaima, pr. sredja vrijedost, stadarda devijacija, proporcija, itd. Parametar se odosi a populaciju i ozačava se malim grčkim slovima (µ, σ, π itd). Često am vrijedosti parametra populacija isu dostupe te ih procjejujemo a temelju uzorka. Procjea ekog parametra populacije a temelju uzorka aziva se statistika (ili procjeitelj) i ozačava se malim slovima ( x, s, p, ). Općeito je vrijedost statistike i epozatog parametra populacije daa s izrazom: Statistika = Parametar_populacije ± pogreška Taj se izraz može zapisati u obliku: Parametar_populacije = Statistika ± pogreška epozato Oo što želimo zati je s kojom točošću (precizošću) i s kojom pouzdaošću (vjerojatosti), eka statistika procjejuje parametar populacije. Parametar je svojstvo populacije dok je statistika fukcija uzorka (podskupa te populacije) te za svaki ovi uzorak izvuče iz iste populacije (istog osovog skupa) možemo dobiti različitu vrijedost statistike. Ali, ako zamo kako je statistika uzorka distribuiraa tj. ako zamo kako je distribuiraa vrijedost statistike ( x ) a temelju beskoačo mogo uzoraka iste veličie izvučeih iz te populacije (to je distribucija vjerojatosti statistike uzorka) tada uz pomoć vjerojatosti možemo procijeiti s kojom pouzdaošću se parametar populacije alazi u određeim graicama. Dakle, možemo odrediti graice oko x u kojima se alazi parametar µ i pridružeu vjerojatost za takvo odstupaje. (µ = x ± pogreška, uz određeu vjerojatost, tj. pouzdaost). Ta se distribucija vjerojatosti statistike uzorka aziva se DISTRIBUCIJA UZORKOVANJA (egl. samplig distributio) Pozavaje distribucije uzorkovaja eke statistike temelj je za iferecijalo statističko zaključivaje (itervale procjee parametara populacije, testiraje hipoteza). Svaki parametar populacije (sredja vrijedost µ, proporcija π, varijaca σ 2, ) ima svoju distribuciju uzorkovaja. Važo svojstvo distribucije vjerojatosti statistike su jezio očekivaje i stadarda devijacija. Ta se stadarda devijacija distribucije eke statistike aziva STANDARDNA POGREŠKA (SE). Od posebog je začeja distribucija uzorkovaja sredje vrijedosti. µ = x ± pogreška
STROJNO UČENJE Uvod u statističko zaključivaje 7/22 STROJNO UČENJE Uvod u statističko zaključivaje 8/22 Distribucija uzorkovaja sredje vrijedosti. CENTRALNI GRANIČNI TEOREM Neka je daa populacija sa sredjom vrijedošću µ i stadardom devijacijom σ. Neka je x sredja vrijedost od slučajo odabraih ezavisih opservacija iz te populacije. Distribucija uzorkovaja sredje vrijedosti približava se ormaloj sa očekivajem µ i stadardom devijacijom σ, kada µ = x ± pogreška. No sada, a temelju cetralog graičog teorema koji am kaže da su sredje vrijedosti uzoraka veličie također distribuirae ormalo sa stadardom pogreškom SE = σ, možemo pisati: µ = x ± u p σ, sa pouzdaošću I(u p ), gdje je u 0 vrijedost jediiče ormale razdiobe, a I(u p ) pripada pouzdaost (vjerojatost). Te se vrijedosti očitavaju u statističkim tablicama. u p 1.64 1.96 2.58 pouzdaost I(u p ) 90% 95% 99% (pogledati tekst i simulacije a adresi http://www.ruf.rice.edu/~lae/rvls.html, posebo za ilustraciju CGT pogledati aimirai primjer a adresi http://www.ruf.rice.edu/~lae/stat_sim/samplig_dist/idex.html) Stadarda pogreška (egl. stadard error) ekog parametra je sadarda devijacija distribucije uzorkovaja tog parametra. Poekad se ozačava sa SE. Stadarda pogreška distribucije uzorkovaja σ sredje vrijedosti je SE = σ X X =, gdje je X slučaja varijabla osovog skupa (a primjer: visie populacije studeata Zagrebačkog Sveučilišta, težie proizvoda koje proizvede eka tvorica, itd.). Često se umjesto σ X piše samo σ. Itervala procjea očekivaja (za velike uzorke, 30) µ = x ± u p σ, sa pouzdaošću I(u p ), dok je za male uzorke umjesto vrijedosti u p jediiče ormale distribucije vrijedost studetove t-distribucije koja se očitava iz statističkih tablica za zadai broj stupjeva slobode k, gdje je k=-1, a je broj elemeata u uzorku. µ = x ± t(k) σ, s pouzdaošću ovisom o t(k). Prije smo apomeuli da je Parametar = Statistika ± pogreška. Ako za statistiku koja as zaima odaberemo sredju vrijedost tada je
STROJNO UČENJE Uvod u statističko zaključivaje 9/22 STROJNO UČENJE Uvod u statističko zaključivaje 10/22 Cetrali graiči teorem (CGT) X µ U = σ Iz tvrdje CGT-a slijede formule za Itervale procjee očekivaja µ (za velike, >30): X :N( µ, σ 2 / ) P( x - 1.65 σ < µ < x + 1.65 σ ) = 90% P( x - 1.96 σ < µ < x + 1.96 σ ) = 95% P( x - 2.58 σ < µ < x + 2.58 σ ) = 99% Naka je X je ormalo distribuiraa sl. varijabla (kraće ćemo reći ormala distribucija). Naka su parametri od X očekivaje 34 i stadarda devijacija 4. To zapisujemo X:N(34, 4 2 ). Kolika je vjerojatost da slučajo izvuče primjer iz te distribucije poprimi vrijedost veću od 30? P(X > 30) = P(U > (30 34)/4) ) = P(U > -1) = (očitavamo iz stat. tablica) = 0.841 Ako sada izvlačimo uzorak od 16 elemeata iz zadae distribucije X: N(34, 4 2 ) i račuamo sredju vrijedost, kolika je vjerojatost da sredja vrijedost izračuata iz tog uzorka bude veća od 30? Prema CGT, X je distribuirao s očekivajem 34 i stadardom devijacijom SE = 4 16 = 1, dakle Bioma distribucija Slučaji pokus: dva moguća ishoda, A i oa. Vjerojatost događaja A, P(A) = π i vjerojatost da se e desi A, P(oA) = 1 - π. Promatramo jeda proizvod: proizvod je isprava s vjerojatošću π. Mogući događaji: A = proizvod je isprava, P(A) = π o A = proizvod je eisprava, P(oA) = 1 - π. Pretpostavimo da imamo izove od takvih ezavisih pokusa (Beroullijevi izovi). Kolika je vjerojatost da će se događaj A pojaviti točo x puta u tom izu? Uzorak od proizvoda, kolika je vjerojatost da točo x od proizvoda ( 0 x ) bude ispravo? Bioma slučaja varijabla s parametrima i π. Kolika je vjerojatost da će se događaj A pojaviti točo x puta u tom izu? tj. Kolika je vjerojatost da slučaja varijabla X poprimi vrijedost x? x x x P(X = x) = π ( 1 π ) (1) P( X > 30) =(stadardizacija)=p(u > (30 34)/1) ) = P( U > -4) = 1. 0.4 0.3 0.2 0.1-7.5-5 -2.5 2.5 5 7.5
STROJNO UČENJE Uvod u statističko zaključivaje 11/22 STROJNO UČENJE Uvod u statističko zaključivaje 12/22 Aproksimacija biome ormalom (Moivre-Laplaceova formula) x π π ( ) ( ) ( ) 1 x 2 P x1 X x2 P U. 1 π π 1 π π Uz uvjet π > 5 i π(1-π) > 5. Proporcija X bioma slučaja varijabla s parametrima i π, tj. X:B(π, ) Proporcija je omjer P = X/. Kolika je vjerojatost da će se događaj A pojaviti između x 1 i x 2 puta u tom izu od pokusa? x2 i i P(x 1 X x 2 ) = π ( 1 π ). (2) i= x1 i Očekivaje biome slučaje varijable X je E(X) = π Varijaca biome slučaje varijable V(X) = σ 2 = π(1-π) = 15, π = 0.2 x = 4 P(X = 4) = 0.188 Da li je povoljo kladiti se da će u 24 uzastopa bacaja igraće kocke barem jedom pasti dvostruka šestica? N = 300, π = 0.2, P( 100 > X > 50) =?
STROJNO UČENJE Uvod u statističko zaključivaje 13/22 STROJNO UČENJE Uvod u statističko zaključivaje 14/22 Distribucija uzorkovaja proporcije. Promatramo izove od elemeata. Zaima as broj elemeata u tom izu od koji imaju eko svojstvo A. Ozačimo taj broj s x. (Beroullijevi izovi) Proporcija P je omjer P = X/ Primjer. Neka je daa eka hipoteza h. Pretpostavimo da imamo uzorak sastavlje 14 elemeata tj. primjera za učeje. Ako 8 od 14 primjera zadovoljava hipotezu h tada je proporcija uspjeha hipoteze h a tom skupu (uzorku) jedaka p 1 = x/ = 8/14. Uzmimo eki drugi uzorak tj. skup primjera za učeje i eka je a tom skupu proporcija valjaosti hipoteza p 2 = 5/14. Neka je da eki treći skup primjera za učeje iste veličie i eka je a jemu p 3 = 7/14.. Ako astavimo s tim postupkom u dobivamo distribuciju uzorkovaja proporcije koju ozačavamo s P. (Posljedica Moivre -Laplaceovog teorema - CGT) Distribucija uzorkovaja proporcije za velike približava se ormaloj distribuciji s Očekivajem π i Stadardom devijacijom σ P = π( 1 π). Itervale procjee proporcije Parametar populacije = statistika_uzorka ± pogreška Primjeri: π = p ± pogreška, µ = x ± pogreška. Na temelju pozate distribucije uzorkovaja proporcije izvode se itervale procjee proporcije. P( p - 2.58 P( p 1.96 π( 1 π) < π < p + 2.58 π( 1 π) < π < p + 1.96 π( 1 π) ) = 99% π( 1 π) ) = 95% Jeda strijelac je pogodio 5 puta u metu od 10 pokušaja. Drugi strijelac je pogodio 50 puta u metu od 100 pokušaja. Što možemo reći o pravoj proporciji pogodaka jedog i drugog strijelca. P( 0.5 1.96 0.5(1 0.5) 10 < π < 0.5 + 1.96 P( 0.5 1.96 0.5(1 0.5) 100 < π < 0.5 + 1.96 Prvi strijelac: P( 0.5 1.96*0.158 < π < 0.5 + 1.96*0.158) = 95% P( 0.5 0.31 < π < 0.5 + 0.31) = 95% P( 0.19 < π < 0.81) = 95% Drugi strijelac: P( 0.5 1.96*0.05 < π < 0.5 + 1.96*0.05) = 95% P( 0.5 0.098 < π < 0.5 + 0.098) = 95% P( 0.402 < π < 0.598) = 95% 0.5(1 0.5) ) = 95% 10 0.5(1 0.5) ) = 95% 100
STROJNO UČENJE Uvod u statističko zaključivaje 15/22 STROJNO UČENJE Uvod u statističko zaključivaje 16/22 Testiraje hipoteza 1. direkto statističko zaključivaje (iferecijalo): točkove ili itervale procjee - uzorak koristimo za procjeu parametra populacije. Postupak: Postavljaju se dvije međusobo isključive hipoteze koje zajedički iscrpljuju sve mogućosti: 2. idirekto: testiraje hipoteza Uzorak podržava ili diskreditira a priori postavljeu tvrdju ili pretpostavku o stvaroj vrijedosti parametra populacije Hipoteza o populacioom parametru proizlazi iz prethodih ispitivaja teoretskih pretpostavki. Ako postupkom testiraja ađemo da je H 0 eprihvatljiva s aspekta vjerojatosti, tada prihvaćamo (vjerujemo) u alterativu hipotezu. dvostrai test jedostrai testovi H 0 θ = a H 1 θ a H 0 θ = a H 1 θ < a ili H 0 θ = a H 1 θ > a ili Isto kao što e možemo aći 100% iterval pouzdaosti tako i testiraje e daje 100% sigurost u ispravost odluke već su pouzdaosti s kojim radimo 90, 95, 99%. Naime, u postupku testiraja uaprijed zadajemo (i time kotroliramo) pogrešku (tj. rizik s kojim radimo statistički test) a to je vjerojatost odbacivaja istiite hipoteze. Ta se vjerojatost aziva ivo sigifikatosti (ivo začajosti) ili pogreška prvog reda i ozačava se s α. U zadja dva slučaja moramo biti siguri da θ > a, θ < a, ije moguće!!! Površia odgovara vjerojatosti α, tj. ivou sigifikatosti testa Površie zajedo odgovaraju vjerojatosti α, tj. ivou sigifikatosti testa jedostrai test dvostrai test Postavljaje hipoteza dešava se a logičkoj razii, tj. vezao je za problem pozavaja područja problema. Prihvaćaje hipoteze tj. vjerovaje u određeu hipotezu je stvar statističke odluke.
STROJNO UČENJE Uvod u statističko zaključivaje 17/22 STROJNO UČENJE Uvod u statističko zaključivaje 18/22 Uzorak od 100 elemeata dao je a) x = 19.1 b) x = 19.9 c) x = 16. H 0 µ = 20 H 1 µ 20 Pretpostavimo da zamo da je st.dev. populacije σ = 3. Pitaje je da li je moguće, tj. koliko je vjerojato da dobijemo sredju vrijedost uzorka x = 19.1 ako je µ = 20. Ako je ta vjerojatost mala oda smo skloi e vjerovati u pretpostavku iz ulte hipoteze. Pitaje je koliko je to malo vjerojato? Običo je to 1% ili 5% i aziva se ivo začajosti (sigifikatosti) i ozačava se s α. α je vjerojatost odbacivaja istiite hipoteze! Rizik testiraja koji se određuje uaprijed! b) x = 19.9, odaberemo α = 0.05 tj. 5%. Radimo dvostrai U - test. U = X µ 19.9 20 = = - 0.33 σ 3 100 Iz statističkih tablica slijedi da je vjerojatost 2*P (U < - 0.33) = 2*0.37 = 0.74 što je puo veće od α = 0.05 (koliki je ivo sigifikatosti testa) => prihvaćamo ultu hipotezu. Iterpretacija: Nemamo razloga, a temelju predočeog uzorka (uzorak od 100 elemeata čija je sredja vrijedost x =19.9), sumjati u istiitost ulte hipoteze! Vjerojatost da dobijemo sredju vrijedost uzorka (po apsolutoj vrijedosti jedaku ili veću od) x = 19.1 je 0.74, ako je stvara sredja vrijedost populacije 20. To je puo veća vjerojatost od 0.05 što je graiča vjerojatost s kojom radimo testiraje. Mogli bi reći da uzorak podržava tvrdju iz ulte hipoteze s vjerojatošću 0.74. a) x = 19.1, odaberemo α = 0.05 tj. 5%. Radimo dvostrai U - test. U = X µ 19.1 20 = = - 3 σ 3 100 Vjerojatost da je P (U < - 3) je praktički jedaka 0 (pa oda i 2*P (U < - 3) 0, jer radimo dvostrai test pa gledamo površie u oba repa), tj. ta je vjerojatost puo maja od 0.05 (koliki je ivo sigifikatosti testa) pa odbacujemo ultu hipotezu. Iterpretacija: Vjerojatost da a temelju uzorka od 100 elemeata dobijemo sredju vrijedost 19.1, ako je prava vrijedost 20, je praktički ula pa smo stoga skloi NE vjerovati u ultu hipotezu tj. odbacujemo je. Površia = 0.37-0.33 0.33 Dvostrai test: ukupa provršia (vjerojatost) 2*P (U < - 0.33) 2*0.37 = 0.74 Površia = 0.37
STROJNO UČENJE Uvod u statističko zaključivaje 19/22 STROJNO UČENJE Uvod u statističko zaključivaje 20/22 Pogreške prvog i drugog reda Prilikom testiraja možemo učiiti dva tipa pogrešaka. Greške I i II reda. Usporedba postupka statističkog testiraja i pravosudog postupka: H 0 Osumjičei je evi H 1 Osumjičei je kriv Odluka Stvaro staje suda Nevi Kriv Nevi pogreška Kriv pogreška Zaključak H 0 prihvaćamo Stvaro staje H 0 je istia H 0 odbacujemo α (greška I reda) H 0 je laž β (greška II reda) Vjerojatost prihvaćaja hipoteze H 0 kada je H 1 istia (dakle H 0 je laž)! U ašem primjeru postavljeih hipoteza: H 0 Osumjičei je evi H 1 Osumjičei je kriv to je slučaj kada je osumjičei zaista kriv o mi ga proglasimo eviim. β ovisi o: pravoj vrijedosti parametra o kojem raspravljamo (alterativa hipoteza), β pada kada je veća razlika između pretpostavljee i prave vrijedosti parametra koji se testira (distribucije su razdijeljee) pogrešci α, tj. β raste kada α pada i obruto, te jedostraom ili dvostraom testu, β stadardoj devijaciji populacije, β se povećava što je st.dev. populacije veća veličii uzorka, β se smajuje kada veličia uzorka raste. zadja dva parametra određuju stadardu pogrešku SE. Pogreška I reda ili α je pogreška koju uvijek možemo kotrolirati prilikom statističkog zaključivaja. Oa se zadaje uaprijed, a hipoteze se formuliraju tako da oa pogreška koja am je važija bude pogreška prvog reda α. Na primjer, u pravosudom postupku možemo učiiti dvije pogreške, da eviog čovjeka osudimo ili da krivog oslobodimo. Možemo se odlučiti da je važije kotrolirati vjerojatost pogreške da eviog čovjeka osudimo. Formuliramo hipoteze: H 0 Osumjičei je evi i H 1 Osumjičei je kriv. Pogreška prvog reda ili α je vjerojatost odbacivaja hipoteze H 0 kada je oa zapravo istiita, tj. u ovom slučaju vjerojatost da eviog čovjeka proglasimo krivim. Kada bi obruli hipoteze i stavili H 0 Osumjičei je kriv, tada bi zadavali uaprijed i time kotrolirali pogrešku da krivog čovjeka oslobodimo. Pogreška II reda ili β
STROJNO UČENJE Uvod u statističko zaključivaje 21/22 STROJNO UČENJE Uvod u statističko zaključivaje 22/22 Testiraje proporcija 1. Formuliraje statističke hipoteze H 0 π = 0.005 H 1 π < 0.005 (jedostrai, lijevi test područje odbacivaja hipoteze je a lijevo) Površia α=5% 0.4 0.3 0.2 2. Odredi statistiku za testiraje : proporcija P P π Zamo da vrijedi U = p( 1 p) 3. Odaberi ivo začajosti testa tj. pogrešku prvog reda α, eka je α = 5% i pripadu kritiču vrijedost očitaj iz tablica. Za odabrai ivo začajosti i jedostrai test u krit =- 1.64 Područje odbacivaja H 0-2.26 0.1-3 -2-1 1 2 3-1.64 0.0 Područje prihvaćaja H 0 4. Uzmi slučaja uzorak =2000 i izračuaj vrijedost statistike P a jemu, tj. p=3/2000=0.0015 0.0015 0.005 u = = 2.26 0.005(1 0.005) 2000 5. Doesi odluku: Ako je izračuata vrijedost statistike u < u krit odbaci ultu hipotezu. Kako je 2.26 < -1.64 H 0 odbacujemo!