5 Statistica matematică

Σχετικά έγγραφα
8 Intervale de încredere

Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.

Curs 4 Serii de numere reale

(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.

Metode iterative pentru probleme neliniare - contractii

9 Testarea ipotezelor statistice

7 Distribuţia normală

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1

Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"

Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor

5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.

Curs 1 Şiruri de numere reale

a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea

MARCAREA REZISTOARELOR

Metode de interpolare bazate pe diferenţe divizate

V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile

III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro

DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE

Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare

Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7

NOTIUNI DE BAZA IN STATISTICA

prin egalizarea histogramei

Sisteme diferenţiale liniare de ordinul 1

riptografie şi Securitate

R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.

POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE

Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor

Aplicaţii ale principiului I al termodinamicii la gazul ideal

SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0

Asupra unei inegalităţi date la barajul OBMJ 2006

Seminar 5 Analiza stabilității sistemelor liniare

Capitolul 4. Integrale improprii Integrale cu limite de integrare infinite

Esalonul Redus pe Linii (ERL). Subspatii.

SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0

Integrala nedefinită (primitive)

Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice

Laborator 11. Mulţimi Julia. Temă

Criptosisteme cu cheie publică III

Subiecte Clasa a VIII-a

COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.


ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor

Scoruri standard Curba normală (Gauss) M. Popa

5.4. MULTIPLEXOARE A 0 A 1 A 2

5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE

CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii

a. 11 % b. 12 % c. 13 % d. 14 %

Subiecte Clasa a VII-a

Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].

Variabile statistice. (clasificare, indicatori)

z a + c 0 + c 1 (z a)

TEMA 9: FUNCȚII DE MAI MULTE VARIABILE. Obiective:

3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003

Proiectarea filtrelor prin metoda pierderilor de inserţie

Curs 2 Şiruri de numere reale

Problema a II - a (10 puncte) Diferite circuite electrice

3 Distribuţii discrete clasice

BARAJ DE JUNIORI,,Euclid Cipru, 28 mai 2012 (barajul 3)

SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a

III. Reprezentarea informaţiei în sistemele de calcul

CURSUL AL IV-LEA. Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg

Conice. Lect. dr. Constantin-Cosmin Todea. U.T. Cluj-Napoca


Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare

RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,

Functii Breviar teoretic 8 ianuarie ianuarie 2011

Subiecte Clasa a V-a

1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB

Laborator biofizică. Noţiuni introductive

Statisticǎ - notiţe de curs

6 n=1. cos 2n. 6 n=1. n=1. este CONV (fiind seria armonică pentru α = 6 > 1), rezultă

Indicatori sintetici ai distribuțiilor statistice

Să se arate că n este număr par. Dan Nedeianu

V O. = v I v stabilizator

Câmp de probabilitate II

STATISTICĂ DESCRIPTIVĂ

Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.

Statisticǎ - curs 2. 1 Parametrii şi statistici ai tendinţei centrale 2. 2 Parametrii şi statistici ai dispersiei 5

Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011

1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori

ECO-STATISTICA-NOTITZZE DE LABORATOR

Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)

Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane

Examen AG. Student:... Grupa: ianuarie 2016

Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice

Ecuatii exponentiale. Ecuatia ce contine variabila necunoscuta la exponentul puterii se numeste ecuatie exponentiala. a x = b, (1)

2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3

Laborator 6. Integrarea ecuaţiilor diferenţiale

Profesor Blaga Mirela-Gabriela DREAPTA

Principiul Inductiei Matematice.

Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent

GEOMETRIE PLANĂ TEOREME IMPORTANTE ARII. bh lh 2. abc. abc. formula înălţimii

Modul de calcul al prețului polițelor RCA

INTERPOLARE. y i L i (x). L(x) = i=0

CIRCUITE INTEGRATE MONOLITICE DE MICROUNDE. MMIC Monolithic Microwave Integrated Circuit

riptografie şi Securitate

DistributiiContinue de Probabilitate Distributia Normala

Lucrare. Varianta aprilie I 1 Definiţi noţiunile de număr prim şi număr ireductibil. Soluţie. Vezi Curs 6 Definiţiile 1 şi 2. sau p b.

Transcript:

5 Statistica matematică Cuvântul statistică afostiniţial folosit pentru a desemna o colecţiededatedesprepopulaţie şi situaţia economică, date vitale pentru conducerea unui stat. Cu timpul, Statistica a devenit o metodă ştiinţifică de analiză aplicată în toate ştiinţele naturale şi sociale, fiind o ramură importantă a matematicii. Ca un exemplu de deducţie statistică, prezentăm următoarea problemă a sondajului de opinie în alegeri. Exemplul 5.1 Dacă selecţia este aleatoare şi suficient de largă, cu încredere de 95% avem că proporţia a populaţiei ce verifică un anumit criteriu (ce preferă un anumit candidat, spre exemplu) verifică r r (1 ) (1 ) 196 +196 unde reprezintă volumul selecţiei iar reprezintă proporţia populaţiei selectate ce verifică criteriul ales. Spre exemplu, dacă într-oselecţie de = persoane 6 preferă candidatul (şi deci proporţia selecţie este =6), atunci cu încredere de 95% putem afirma că rezultatul votului pentru candidatul va fi = 6 r r 6 (1 6) 6 (1 6) 57 = 6 196 6 + 196 =63 adică înintervalul(57 63), numitinterval de încredere. Scopul Statisticii matematice este ca plecând de la informaţia conţinută într-uneşantion al populaţiei să obţină informaţii despre întreaga populaţie în cauza. Deducţiile statistice sunt deducţii inductive (de la particular la general), spre deosebire de cele deductive (de la general la particular), şi din această cauză ele nu sunt deducţii sigure, siguranţa lor fiind măsurată în termeni de teoria probabilităţilor. Spre exemplu, dacă ocutieconţine un milion de seminţe de flori având două culori (albe şi roşii), este practic imposibil să se determine procentul exact de seminţe ce vor produce flori de culoare albă fără aplantatoateaceste seminţe şi a observa apoi culoarea fiecărei flori. O altă ideeestesăalegem numai un eşantion de seminţe (să spunem câteva sute de seminţe), să leplantăm, şi pe baza culorilor florilor obţinute să tragem o concluzie asupra culorilor întregului lot de seminţe. Acesta este deducţia inductivă (de la particular la general), şi este evident că acest tip de deducţie nu este unul sigur, dar putem formula concluzii cu anumite probabilităţi. 5.1 Selecţii aleatoare În majoritatea problemelor statistice se operează cu un eşantion/selecţie din populaţia dată (şi nu cu întreaga populaţie studiată), din câteva motive practice: 1. Resurse limitate (costuri ridicate în alegerea unui eşantion de volum mare) 2. Date limitate (uneori, chiar dacă am neglija costurile, nu este posibil să creştem volumul selecţiei. Spre exemplu, atunci când se doreşte efectuarea unui studiu statistic privind anumite civilizaţii dispărute, datele statistice sunt limitate, chiar dacă am fi dispuşi să mărim oricât costurile) 3. Testare distructivă (spre exemplu, dacăsedoreşte testarea duratei de viaţă a unor becuri, acestea sunt distruse în testare. Este imposibil observarea întregii cantităţi de becuri produse de producător, deoarece ar însemna pierderea întregului profit realizat de pe urma producerii lor!) Prin populaţie înţelegem totalitatea observaţiilor ce fac scopul investigaţiei. Elementele populaţiei se numesc indivizi sau unităţi statistice. Un eşantion/selecţie este o submulţime de observaţii din populaţia considerată. Pentru ca concluziile statistice să fie valide, selecţia trebuie să fie reprezentativă populaţiei. Există însă în practică tendinţa de a alege eşantionul pe anumite criterii de convenienţă,sau prin eliminarea anumitor date pe diverse criterii, apărând astfel selecţii incorecte/părtinitionare. Pentru a înlătura acest neajuns, este de dorit alegerea unui eşantion în mod aleator/arbitrar. Gândim astfel selecţia eşantionului ca fiind un experiment în care fiecare observaţie este valoarea observată a unei variabile aleatoare. Valorile astfel obţinute determină distribuţia acestei variabile aleatoare (populaţia studiată). Mai precis, să considerăm că este variabila aleatoare ce reprezintă valoarea unei selecţii din populaţie, iar şi sunt densitatea, respectiv funcţia de distribuţie a variabilei aleatoare. 36

Considerăm că eşantionul se alege prin repetarea de ori, în condiţii identice şi independente, a observaţiei variabilei aleatoare. Valorile observate 1 le putem deci privi ca şi valori observate a variabile aleatoare 1 independente şi identic distribuite, având aceeaşi densitate şi distribuţie ca şi a întregii populaţii. Variabilele aleatoare 1 formează decioselecţie/eşantion aleator dacă sunt independente şi au aceeaşi distribuţie (cu a întregii populaţii). Scopul selectării unui eşantion dintr-o populaţie estedeaobţine informaţii despre populaţia în cauză. Spre exemplu, considerând din nou exemplul anterior, dacă notăm prin 1 faptulcăoseminţă vaproduceofloare albă, şi prin faptulcăvaproduceofloare roşie, şi dacă 1 sunt valorile observate ale unei selecţii de volum din întreaga populaţie, atunci putem estima proporţia de seminţe ce vor produce flori de culoare albă prin media de selecţie = 1 + + Media de selecţie este un caz particular de statistică. Mai general, definim o statistică ca fiind o funcţie ce depinde de valorile observate ale selecţiei. 5.2 Reprezentări grafice şi caracteristici numerice ale selecţiilor aleatoare 5.2.1 Caracteristici numerice Fie 1 valorile observate ale unei selecţii aleatoare 1 de volum dintr-o populaţie. Definim următoarele caracteristici numerice ale selecţiei: Media de selecţie: = 1++ (reprezintă o estimare pentru media = a populaţiei ) Dispersia de selecţie: 2 =1 = ( ) 2 1 (reprezintă o estimare pentru dispersia 2 = ³( 2 ) a populaţiei ) Abaterea pătratică medie de selecţie = 2 Mediana: ordonând crescător datele, mediana reprezintă valoarea din mijloc, adică +1 2 respectiv + 2 2 +1 2 dacă este par. Modul: este cea mai frecventă valoare dacă este impar, Quartile: împărţind valorile observate în 4 grupe egale, punctele de diviziune se numesc quartile (se notează 1 4 ). 25% din valorile selecţiei sunt deci mai mici sau egale cu 1, 5% din valori sunt mai mici sau egale cu 2,etc. Percentile: este o percentilă deordin dacă % din valori sunt cel mult egale cu ( 1 = 25, 2 = 5 este mediana, şamd) Domniul: este intervalul [min max ] în care sunt cuprinse valorile selecţiei 5.3 Reprezentări grafice 5.3.1 Reprezentări prin puncte (dot diagrams) Datele 1 se reprezintă grafic prin puncte (ca înăţimi). Dacă datele selecţei sunt bidimensionale, adică ( 1 1 ) ( ) se reprezintă grafic punctele corespunzătoare. Spre exemplu, considerând o selecţia de date bidimensionale (12 2) (13 3) (21 4) (27 5) (33 1) (34 3) (35 9) (37 4) ( 4) ( 2) (41 7) 37

45 35 3 25 15 5 Graficul valorilor selectiei 2, 4, 7, 41 4, 37 1, 33 3, 34 9, 35 2, 12 3, 13 4, 21 5, 27 2 4 6 8 Selectie Figure 9: Reprezentarea prin puncte a valorilor selecţiei. 5.3.2 Diagrame ca serii de timp Sunt utile atunci când datele selecţiei sunt înregistrate în ordine cronologică, şi arată anumite posibile caracteristici ale selecţiei (tendinţă crescătoare/descrescătoare, periodicitate, etc). Spre exemplu, înregistrând timpul petrecut în apă de un copil (în minute), s-au înregistrat următoarele valori: 12 13 21 27 33 34 35 37 41 Exemplul 5.2 Reprezentând grafic aceste valori, se obţine următorul grafic (se observă tendinţa crescătoare a datelor selecţiei). 6 Minute in apa 5 3 Minute in apa Linear (Minute in apa) 5 15 Figure : Reprezentarea ca serie de timp a valorilor selecţiei. 5.3.3 Diagrame rădăcină-frunză (Stem-and-leaf diagrams) Pentru un număr mare de date de selecţie ( ), aceste reprezentări sunt de preferat celor prin puncte. Pentru a construi această reprezentare, se împarte fiecare valoare observată îndouăpărţi: rădăcină (unasau mai multe cifre de la începutul lui )şi frunză (restul cifrelor după rădăcină). Se aşază apoi fiecare rădăcină într-o coloană verticală şi fiecare frunză în linia corespunzătoare rădăcinii. Spre exemplu, dacă valorile selecţiei sunt 43 119 121 21 33 32 57 45 56 44 38

alegând ca rădăcină cifra zecilor şi a sutelor, iar ca frunză cifra unităţilor, se obţine următoarea reprezentare. Rădăcină Frunză Frecvenţe 2 1 1 3 2 3 2 4 3 5 4 3 5 6 7 2 11 9 1 12 1 1 Aceste reprezentări sunt utile pentru sortarea manuală a valorilor şi/sau pentru calculul manual al frecvenţelor valorilor selecţiei. 5.3.4 Histograme Sunt un mod mai compact de reprezentare a datelor decât cele prin diagrame rădăcină-frunză. Pentru a cosntrui histograma, se împarte domeniul valorilor selecţiei în subintervale disjuncte de lungime egală (5 subintervale sau subintervale, unde este volumul selecţiei). Se determină frecvenţele (relative sau absolute, cumulate sau nu) a datelor selecţiei în aceste subintervale, şi se reprezintă apoipeaxa subintervalele considerate iar pe axa frecvenţele respective (ca înâlţimi ale dreptunghiurilor respective). Spre exemplu, în urma unui sondaj asupra vârstei a angajaţilor, s-a determinat că vârstele acestora sunt cuprinse în intervalul [ 6]. Împărţind vârstele în 5 subintervale de lungime egală, a rezultat următorul tabel. Subinterval Frecvenţe absolute Frecvenţe relative cumulate 22 [ 29) 22 [3 39) 31 53 [ 49) 38 91 [5 6] 5 Se obţine următoarea histograma a frecvenţelor absolute ale selecţiei. 35 3 25 15 5 Frecventa absoluta a vârstelor [,29) [3,39) [,49) [5,6] Frecventa vârstelor Figure 11: Histograma frecvenţelor absolute a selecţiei. Histograma frecvenţelor relative cumulate este o bună indicaţie a funcţiei de distribuţie a populaţiei considerate. 5.3.5 Box-and-whiskers Aceste diagrame sunt utile pentru a arăta modul în care valorile selecţiei sunt dispersate în jurul medianei, fără a arăta însă valorile efective ale selecţiei. Acest tip de reprezentare este folosit atunci când volumul selecţiei este mare, sau pentru a compara două sau mai multe seturi de date. Pentru a construi acest tip de reprezentare, se ordonează mai întâi crescător valorile observate. Se determină apoi mediana (valoarea din mijloc, sau cvartila 2 )şi cvartilele 1 şi 3.Seconstruieşte apoi reprezentarea grafică desenând un dreptunghi între cvartilele 1 şi 3, cu o dreaptă verticală în dreptul medianei, şi în exteriorul acestuia se prelungesc două drepte pentru a indica domeniul valorilor selecţiei. 39

1 Histograma frecventelor relative cumulate a vârstelor 8 6 Frecvente relative cumlate ale vârstelor [,29) [3,39) [,49) [5,6] Figure 12: Histograma frecvenţelor relative cumulate ale selecţiei. Spre exemplu, considerăm datele de selecţie Ordonând crescător aceste date se obţine şirul 13 14 6 9 21 17 15 15 7 13 13 8 11 6 7 8 9 11 13 13 13 14 15 15 17 21 şi se determină mediana 2 = 13 (cum în acest caz avem =15date, mediana este valoarea 15+1 = 8 =13). 2 Se determină apoi cvartila 1 astfel încât cel mult 25% din date sunt mai mici sau egale cu 1. Se obţine 1 =9. Se determină cvartila 3 astfel încât cel mult 75% din date sunt mai mici sau egale cu 3.Seobţine 1 =14. Se reprezintă grafic un dreptunghi între 1 =9şi 3 =14, cu o linie verticală în dreptul medianei 2 =13,şi se prelungesc două drepte orizontale până în dreptul celei mai mici şi a celei mai mari valori (6, respectiv 21). 6 9 1314 21 Figure 13: Diagrama Box-and-Whiskers indică cea mai mică şi cea mai mare valoare a selecţiei (6 şi 21), mediana ( 2 =13)şi domeniul în care sunt cuprinse 25%, 5% şi 75% din date (până la 1 2, respectiv 3 ). 5.3.6 Grafice de probabilitate Sunt mai utile decât histogramele frecvenţelor relative cumulate pentru a determina dacă oanumită selecţie are sau nu o anumită distribuţie (în special în cazul eşantioanelor de volum mic sau mediu). Pentru a construi diagrama de probabilitate, se ordonează maiîntâicrescător datele de selecţie 1 2. Se reprezintă apoipehârtiegrafică corespunzătoare distribuţiei testate (normală, lognormală, etc) punctele 5, =12. Dacă puncteleseaflă aproximativ pe o dreaptă, se poate presupune că populaţia din care provine selecţia are aproximativ distribuţia testată. În caz contrar populaţia nu are distribuţia testată. Pentru a determina graficul de probabilitate folosind hârtia obişnuită, în cazul testării distribuţiei normale, se reprezintă grafic punctele ( ), =12,unde sunt scorurile normale standard date de = Φ 1 µ 5 =1 2

R iar Φ () = 1 2 2 2 este funcţia de distribuţie normală standard (în Excel, Φ () se calculează folosind funcţia NORMSDIST(x), iar Φ 1 () se calculează folosind funcţia NORMSINV(x)). Pentru a testa spre exemplu dacă datele de selecţie 191 5 2 176 183 19 1 5 185 214 provin dintr-o distribuţie normală, construim graficul de probabilitate. Pentru aceasta, ordonăm mai întăi crescător datele de selecţie şi determinăm scorurile normale standardizate = Φ 1 5, =12, ca în tabelul de mai jos. 5 176 5 1645 183 15 36 185 25 674 19 35 385 191 45 126 192 55 126 1 65 385 5 75 674 214 85 36 2 95 1645 Reprezentând grafic punctele de coordonate ( ), =1 2 se obţine graficul de mai jos, şi se observă că aceste puncte sunt situate aproximativ pe o dreaptă. Se poate deci presupune că populaţia din care provin datele este aproximativ o populaţie normală. Graficul de probabilitate al selectiei 25 2 23 2 2 19 18 17 16 15 2. 1.. 1. 2. (x_i,z_i) Linear ((x_i,z_i)) Figure 14: Graficul de probabilitate al selecţiei considerate indică o populaţie aproximativ normală. 41