OSNOVE SPORTSKE STATISTIKE I INFORMATIKE Predavač: Dragan Veličković, dipl.mat. MSc. profesor matematike i računarstva ECDL ovlašćeni ispitivač CS 0826J 1. Uvod STATISTIKA Uvod u verovatnoću i statistiku Osnovni pojmovi matematičke statistike Parametri deskriptivne statistike 2. Testiranje hipoteza i analiza varijanse Testiranje statističkih hipoteza Analiza varijanse i vremenskih serija Tablice 3. Microsoft Excel Unakrsne tabele, osnovne alatke, operacije, formule i grafičko predstavljanje podataka Praktičan primer iz statistike
VEROVATNOĆA DOGAĐAJA Verovatnoća oća događaja A zadaje se na sledećinačin: sedeć gde je k brojonih ishoda prikojimasedogađaj A realizovao a n broj svih mogućih ishoda koji semeđusobno isključuju j i za koje pretpostavljamo da su jednako verovatni. Primeri: A događajđ da dobijemo šesticu posle jd jednog bacanja kockice. Verovatnoća događaja iznosi: proučavanje spiskova rođenih skoro uvek daje sledeći rezultat: na 1000 rođene dece ima oko 485 ženske dece tj. frekvencija rađanja ženskog deteta je približno 0.485 PRIMERI ELEMENTARNIH DOGAĐAJA Primer 1: Novčić se baca jednom. Može da padne pismo P ili glava G tako da je skup elementarnih događaja (P, G). Za elementarne događaje možemo uzeti sledeće ishode eksperimenta: A1 palojepismo,p(a1)=1/2 A2 pala je glava, P(A2)=1/2 Primer 2: Novčić se baca 2 puta. Za elementarne događaje možemo uzeti sledeće ishode eksperimenta: A1 u oba bacanja je palo pismo, P(A1)=1/4 A2 u oba bacanja je pala glava, P(A2)=1/4 A3 palo je jd jedno pismo i jd jedna glava, P(A3)=1/2 Uovomslučaju skup elementarnih događaja je složeniji i glasi: (PP, PG, GP, GG)
SLUČAJNE VELIČINE Često se u svakodnevnom životu, igri ili naučnim istraživanjima susrećemo sa veličinama čije se vrednosti menjajuodslučajadoslučaja. jj j j Razmotrimo sledeće primere: broj automobila koji prođu kroz raskrsnicu u toku jednog sata broj registrovanih šestica u n bacanja kockice broj obavljenih telefonskih razgovora iz jedne govornice u toku jednog dana Veličine opisanog tipa zvaćemo slučajnim veličinama. Vrednost koju uzima neka slučajna veličina predstavlja numeričku karakteristiku (ili verovatnoću) ishoda nekog eksperimenta. Raspodela verovatnoća slučajne veličine X označava se na sledećinačin: Primer 1: Novčić se baca 3 puta. Elementaran skup događaja je (PPP, PPG, PGP, GPP, PGG, GPG, GGP, GGG). Svaki od elemenata skupa ima verovatnoću 1/8 i neka je slučajna veličina X broj palih pisama. Raspodela verovatnoće slučajne č veličine X data je nasledeći ldći način:
MATEMATIČKO OČEKIVANJE, DISPERZIJA Najvažnije od numeričkih karakteristikakt tik slučajne č veličine X su njeno matematičko očekivanje E i disperzija D. Matematičko očekivanje E slučajne veličine X (ili srednja vrednost) jebroj: Disperzija D predstavlja meru rasipanja vrednosti koju uzima slučajna veličina X u odnosu na njeno matematičko očekivanje: č KOVARIJACIJA, KOEFICIJENT KORELACIJE Kovarijacija slučajnih č veličina X i Y je broj: Koeficijent korelacije slučajnih veličina X i Y je broj: Ova dva koeficijenta se često uzimaju kao mere zavisnosti slučajnih č veličina X i Y.
BERNULIJEVA SHEMA Neka je n prirodan broj. Pretpostavimo da se izvodi n eksperimenata za koje važe sledeći uslovi: 1. svaki od n eksperimenata završava se sa jednim od 2 moguća ishoda: uspeh (1) i neuspeh (0) 2. verovatnoća uspeha u svakom eksperimentu jednaka je p (verovatnoća neuspeha jednaka je q=1-p, p+q=1) 3. eksperimenti su međusobno nezavisni. Ak - događaj da se tačno k izvedenih eksperimenata završilo uspešno. Verovatnoća događaja Ak glasi: Brojevi Pn(k) određuju binomnu raspodelu verovatnoća Sn (E(Sn)=np; D(Sn)=npq) BERNULIJEV ZAKON VELIKIH BROJEVA U Bernulijevoj shemi Sn/n predstavlja frekvenciju uspeha u n nezavisnih eksperimenata i ne razlikuje se mnogo od verovatnoće uspeha tj. odbroja p. p Kako slučajna veličina Sn može uzeti svaku od vrednosti 0,1,2,..., n to odstupanje frekvencije Sn/n od verovatnoće p može biti i veliko. Međutim, verovatnoća da to odstupanje bude veće od unapred zadatog broja ε>00 je proizvoljno mala, ako je broj n dovoljno veliki (teži ka beskonačnosti).
APROKSIMACIJA NORMALNOM RASPODELOM Bernulijev zakon velikih brojeva nije primenljiv u praksi tako da su određeni matematičari (Muavr i Laplas) dokazali da se verovatnoće Pn(k) mogu aproksimirati integralom jedne nenegativne neprekidne funkcije. Funkcija određena formulom zove se gustina normalne raspodele: Funkcija određena formulom zove se normalna funkcija raspodele: NORMALNA RASPODELA (GAUSOVA KRIVA) Život je jedna Gausova kriva!
NORMALNA RASPODELA (GAUSOVA KRIVA) Portret Karla Fridriha Gausa i grafik gustine normalne raspodele, raspodele od izuzetnog značaja u teoriji verovatnoće sa nekadašnje novčanice od 10 DM! NORMALNA RASPODELA (Z - vrednost) Aritmetička sredina i standardna devijacija j (ukoliko su podaci normalno distribuirani) u potpunosti definišu raspodelu rezultata, pa se može odrediti na koji deo standardne devijacije pada svaki pojedini rezultat. To je postupak pretvaranja originalnih rezultata u z vrednosti ili tzv. standardizacija podataka. Njihova aritmetička sredina je nula, a standardna devijacija i varijansa jedan (N(0,1)). glasi: Ako je distribucija podataka idealno normalna formula Pomoću z vrednosti lakše je određivati vrednost j rezultata u različitim merama, uz upotrebu tablica. (zadatak u Excelu)
TABLICE NORMALNE RASPODELE POPULACIJA I OBELEŽJE Matematička statistika je deo matematike čiji je predmet razvijanje metoda na osnovu kojih se podaci sistematizuju, obrađuju i koriste za donošenje naučnih i praktičnih zaključaka. Skup koji se proučava u matematičkoj statistici zove se populacija, a numerička č karakteristika aa aee elemenatae populacije zove se obeležje. Primeri: populacija je skup svih atletičara koji će učestvovati na narednim Olimpijskim igrama u trci na 400 metara, a obeležje je najbolji raniji rezultat populaciju čine svi zaposleni u jednoj firmi, a obeležje je mesečna plata ili broj godina radnog staža na populaciji svih stanovnika jd jednog grada možemo razmatrati različita obeležja: visina u cm, pol, godine,...
Neka je P=(p1, p2,, pn) populacija, X:P->R obeležje i x1, x2,..., xn vrednosti koje može uzeti obeležje. Za svako k(k=1,m)označimo sa Nk broj elemenata populacije P na kojima obeležje X uzima vrednost xk. Broj Nk zove se apsolutna frekvencija vrednosti xk, broj Nk/N zove se relativna frekvencija te vrednosti a broj 100*Nk/N procenat onih članova populacije na kojima obeležje X uzima vrednosti xk. Raspodela obeležja se uglavnom prikazuje grafički i dobijena figura se naziva histogram raspodele obeležja. Primeri: kalendari takmičenja/aktivnosti kti ti pokrajinskih kih granskih saveza (broj aktivnosti po sportovima): www.sportal.org.rs
UZORAK U praksi je veoma teško registrovati vrednosti obeležja na svim članovima populacije. U takvim situacijama postupa se na sledećinačin: registruju se vrednosti obeležja na članovima jednog dela populacije, pa se za raspodelu obeležja na celoj populaciji prihvata raspodela dl nauočenomč dl delupopulacijel deo populacije na čijim se elementima vrši registrovanje vrednosti obeležja zove se uzorak broj elemenata uzorka zove se obim uzorka uzorak je reprezentativan ako u potpunosti oslikava tj. predstavlja čitavu populaciju (elementi uzorka se biraju slučajnim izborom i moraju imati jednaku verovatnoću izbora) KARAKTERISTIKE UZORAČKE RASPODELE Neka je X obeležje definisano na nekoj populaciji P. uzoračka (aritmetička) sredina ili srednja vrednost: uzoračka disperzija: uzoračko standardno odstupanje ili devijacija:
Primer 1: U grupi za osposobljavanje ima 25 polaznika. Uspeh na testut iz statistike ti tik i informatike prikazan je utabeli: OCENA 1 2 3 4 5 Frekvencija 2 3 5 8 7 Rešenje: TESTIRANJE STATISTIČKIH HIPOTEZA Testiranje hipoteza je oblast statističke analize koja je u širokoj upotrebi jer omogućava sistematično donošenje odluka o problemima koji u sebi sadrže neodređenost. Ono omogućava da se podaci dobijeni iz uzorka mogu kombinovati sa teorijom i na taj način izvode zaključci oceloj populaciji (Hipoteza H se prihvata ili odbacuje). Primer 1: Ako je u 1000 bacanja novčića pismo palo 525 puta, odrediti 99% -tni interval poverenja za nepoznatu verovatnoću padanja pisma. Rešenje: n=1000, Sn=525, nivo poverenja β =0.99 ESn=n*p=1000p, DSn=np*(1-p)=1000p*(1-p), iz formule ispod ubacivanjem dobijenih vrednosti u jednačinu koristeći tablice za normalnu raspodelu, dl rešavanjem kvadratne jd jednačine po p dobijamo da je interval poverenja: (0.48655, 0.56315).
ANALIZA VARIJANSE Analiza varijanse (disperziona analiza) je jedan od najčešće korišćenih statističkih metoda. Koristi se u ispitivanjima kako jedan ili više kontrolisanih faktora utiču na formiranje vrednosti posmatranog obeležja. Primer 1: Polje od 20 ari je podeljeno na 20 parcela od 1 ara, i slučajnim izborom su napravljene 4 grupe od 5 parcela. Na parcele u svakoj grupi je bačeno drugačije mineralno đubrivo A, B, C, D. Za svaku parcelu je izmeren prinos žita: Đubriva 1 2 3 4 5 Prinos A 75 93 82 104 96 90 B 103 89 97 108 98 99 C 67 84 73 82 74 76 D 87 79 86 73 80 81 Razlike među prosečnim prinosima postoje, ali postavlja se pitanje da li su one statistički značajne, odnosno da li postoje statistički značajne razlike među prosečnim prinosima ostvarenim dejstvom pojedinih đubriva? ELEMENTI TEORIJE KORELACIJE U svakodnevnom životu i u naučnim istraživanjima često se srećemo sa potrebom merenja različitih veličina. Veličine koje merimo mogu biti konstantne a mogu imati i vrednosti koje zavise od različitih slučajnih faktora. Veličina koja nas interesuje, najčešće može biti proizvoljan broj iz nekog intervala [a,b]. Jasno je da se vrednost X koju dobijamo u procesu merenja razlikuje od tačne vrednosti μ. Razlika X- μ zove se greška merenja. Gaus je predložio da se verovatnoća da greška merenja X- μ uzme vrednost u intervalu [a,b] aproksimira integralom: X- μ ima normalnu gustinu raspodele, dok broj σ predstavlja standardno odstupanje koje smo ranije pominjali.
LINEARNA REGRESIJA U statističkim istraživanjima često je značajno ispitati da li su neke slučajne veličine zavisne ili nezavisne, a u slučaju zavisnosti važno je okarakterisati postojeću zavisnost. Pretpostavimo da se u procesu eksperimenta registruju vrednosti veličina X i Y. Ako se eksperiment n puta nezavisno ponovi, onda se kao krajnji j rezultat registruju n parova brojeva: (x1, y1), (x2, y2),... (xn, yn). Pretpostavimo da se zavisnost između X i Y može opisati linearnom vezom Y =ax+b. b (sledi primer u Excelu) Ako pokušamo da odredimo konstante a i b dobijamo sistem od n linearnih jednačina: yk = a*xk + b, k=1,..., n. Ako važi zavisnost između X i Y, konstante a i b određujemo tako da se ukupna apsolutna vrednost grešaka: εk = yk (a*xk + b), k=1,..., n minimizira uodređenom smislu (metod najmanjih kvadrata). STANDARDNA GREŠKA REGRESIJE Razmotrimo opet n parova brojeva: (x1, y1), (x2, y2),... (xn, yn) dobijenih u n nezavisnih merenja. Iz pretpostavke zavisnosti veličina X i Y dobijamo da je razlika Y -ax-bjednaka nuli. Međutim rezultati dobijeni u merenjima εk = yk a*xk - b, k=1,..., n nisu jednaki nuli. Razlika Y - ax b = ε zove se greška linearne regresije Y na X i predstavlja slučajnu veličinu. Na osnovu ranije rečenog, greška linearne regresije ima normalnu gustinu raspodele verovatnoća:
MICROSOFT EXCEL Najpopularniji program za rad sa unakrsnim tabelama. Osnovni element radnog lista (h (sheet) jeste ćelija l (cell). Excel dokument (workbook) se sastoji od više radnih listova. Ćelijaj se dobija u preseku jedne kolone (column) i jednog reda (row). U ćeliju se mogu upisivati brojčane vrednosti, tekstualne vrednosti, datum ivremealiiformulei funkcije. TABELE I GRAFIKONI Podaci uneti u tabelu veoma jednostavno se mogu predstaviti i grafički (INSERT CHART).
GOTOVE FUNKCIJE Excel u sebi sadrži veliku biblioteku gotovih funkcija. LINEARNI TREND Excel omogućava automatsko računanje koeficijenata a i b ako pretpostavimo da se zavisnost između X i Y može opisati linearnom vezom Y=aX+b.(već smo definisali) (funkcije SLOPE=nagib, INTERCEPT=odsečak)
LITERATURA 1. Elementaran uvod u verovatnoću istatistiku, Mladenović P., Društvo Matematičara Srbije, Beograd 2. Statistička metodologija repetitorijum vežbi, Kormanjoš A., Novi Sad 3. Statistika, Lozanov-Crvenković Z., PMF, Novi Sad 4. Bussines Master 1, Smart School, Novi Sad SEMINARSKI RAD U Microsoft Excel-u kreirati tabelu popunjenu statističkim podacima koji treba da budu obrađeni i grafički prikazani. Tabelu snimiti pod nazivom ime_prezime.xls Tabelu poslati kao prilog (attachment) na email adresu: ecdl@ssv.rs KONTAKT PODACI Dragan Veličković Mob.: 063 1 691 609 Email: dragan.velickovic@vojvodina.gov.rs