5 Statistica matematică Cuvântul statistică afostiniţial folosit pentru a desemna o colecţiededatedesprepopulaţie şi situaţia economică, date vitale pentru conducerea unui stat. Cu timpul, Statistica a devenit o metodă ştiinţifică de analiză aplicată în toate ştiinţele naturale şi sociale, fiind o ramură importantă a matematicii. Ca un exemplu de deducţie statistică, prezentăm următoarea problemă a sondajului de opinie în alegeri. Exemplul 5.1 Dacă selecţia este aleatoare şi suficient de largă, cu încredere de 95% avem că proporţia a populaţiei ce verifică un anumit criteriu (ce preferă un anumit candidat, spre exemplu) verifică r r (1 ) (1 ) 196 +196 unde reprezintă volumul selecţiei iar reprezintă proporţia populaţiei selectate ce verifică criteriul ales. Spre exemplu, dacă într-oselecţie de = persoane 6 preferă candidatul (şi deci proporţia selecţie este =6), atunci cu încredere de 95% putem afirma că rezultatul votului pentru candidatul va fi = 6 r r 6 (1 6) 6 (1 6) 57 = 6 196 6 + 196 =63 adică înintervalul(57 63), numitinterval de încredere. Scopul Statisticii matematice este ca plecând de la informaţia conţinută într-uneşantion al populaţiei să obţină informaţii despre întreaga populaţie în cauza. Deducţiile statistice sunt deducţii inductive (de la particular la general), spre deosebire de cele deductive (de la general la particular), şi din această cauză ele nu sunt deducţii sigure, siguranţa lor fiind măsurată în termeni de teoria probabilităţilor. Spre exemplu, dacă ocutieconţine un milion de seminţe de flori având două culori (albe şi roşii), este practic imposibil să se determine procentul exact de seminţe ce vor produce flori de culoare albă fără aplantatoateaceste seminţe şi a observa apoi culoarea fiecărei flori. O altă ideeestesăalegem numai un eşantion de seminţe (să spunem câteva sute de seminţe), să leplantăm, şi pe baza culorilor florilor obţinute să tragem o concluzie asupra culorilor întregului lot de seminţe. Acesta este deducţia inductivă (de la particular la general), şi este evident că acest tip de deducţie nu este unul sigur, dar putem formula concluzii cu anumite probabilităţi. 5.1 Selecţii aleatoare În majoritatea problemelor statistice se operează cu un eşantion/selecţie din populaţia dată (şi nu cu întreaga populaţie studiată), din câteva motive practice: 1. Resurse limitate (costuri ridicate în alegerea unui eşantion de volum mare) 2. Date limitate (uneori, chiar dacă am neglija costurile, nu este posibil să creştem volumul selecţiei. Spre exemplu, atunci când se doreşte efectuarea unui studiu statistic privind anumite civilizaţii dispărute, datele statistice sunt limitate, chiar dacă am fi dispuşi să mărim oricât costurile) 3. Testare distructivă (spre exemplu, dacăsedoreşte testarea duratei de viaţă a unor becuri, acestea sunt distruse în testare. Este imposibil observarea întregii cantităţi de becuri produse de producător, deoarece ar însemna pierderea întregului profit realizat de pe urma producerii lor!) Prin populaţie înţelegem totalitatea observaţiilor ce fac scopul investigaţiei. Elementele populaţiei se numesc indivizi sau unităţi statistice. Un eşantion/selecţie este o submulţime de observaţii din populaţia considerată. Pentru ca concluziile statistice să fie valide, selecţia trebuie să fie reprezentativă populaţiei. Există însă în practică tendinţa de a alege eşantionul pe anumite criterii de convenienţă,sau prin eliminarea anumitor date pe diverse criterii, apărând astfel selecţii incorecte/părtinitionare. Pentru a înlătura acest neajuns, este de dorit alegerea unui eşantion în mod aleator/arbitrar. Gândim astfel selecţia eşantionului ca fiind un experiment în care fiecare observaţie este valoarea observată a unei variabile aleatoare. Valorile astfel obţinute determină distribuţia acestei variabile aleatoare (populaţia studiată). Mai precis, să considerăm că este variabila aleatoare ce reprezintă valoarea unei selecţii din populaţie, iar şi sunt densitatea, respectiv funcţia de distribuţie a variabilei aleatoare. 36
Considerăm că eşantionul se alege prin repetarea de ori, în condiţii identice şi independente, a observaţiei variabilei aleatoare. Valorile observate 1 le putem deci privi ca şi valori observate a variabile aleatoare 1 independente şi identic distribuite, având aceeaşi densitate şi distribuţie ca şi a întregii populaţii. Variabilele aleatoare 1 formează decioselecţie/eşantion aleator dacă sunt independente şi au aceeaşi distribuţie (cu a întregii populaţii). Scopul selectării unui eşantion dintr-o populaţie estedeaobţine informaţii despre populaţia în cauză. Spre exemplu, considerând din nou exemplul anterior, dacă notăm prin 1 faptulcăoseminţă vaproduceofloare albă, şi prin faptulcăvaproduceofloare roşie, şi dacă 1 sunt valorile observate ale unei selecţii de volum din întreaga populaţie, atunci putem estima proporţia de seminţe ce vor produce flori de culoare albă prin media de selecţie = 1 + + Media de selecţie este un caz particular de statistică. Mai general, definim o statistică ca fiind o funcţie ce depinde de valorile observate ale selecţiei. 5.2 Reprezentări grafice şi caracteristici numerice ale selecţiilor aleatoare 5.2.1 Caracteristici numerice Fie 1 valorile observate ale unei selecţii aleatoare 1 de volum dintr-o populaţie. Definim următoarele caracteristici numerice ale selecţiei: Media de selecţie: = 1++ (reprezintă o estimare pentru media = a populaţiei ) Dispersia de selecţie: 2 =1 = ( ) 2 1 (reprezintă o estimare pentru dispersia 2 = ³( 2 ) a populaţiei ) Abaterea pătratică medie de selecţie = 2 Mediana: ordonând crescător datele, mediana reprezintă valoarea din mijloc, adică +1 2 respectiv + 2 2 +1 2 dacă este par. Modul: este cea mai frecventă valoare dacă este impar, Quartile: împărţind valorile observate în 4 grupe egale, punctele de diviziune se numesc quartile (se notează 1 4 ). 25% din valorile selecţiei sunt deci mai mici sau egale cu 1, 5% din valori sunt mai mici sau egale cu 2,etc. Percentile: este o percentilă deordin dacă % din valori sunt cel mult egale cu ( 1 = 25, 2 = 5 este mediana, şamd) Domniul: este intervalul [min max ] în care sunt cuprinse valorile selecţiei 5.3 Reprezentări grafice 5.3.1 Reprezentări prin puncte (dot diagrams) Datele 1 se reprezintă grafic prin puncte (ca înăţimi). Dacă datele selecţei sunt bidimensionale, adică ( 1 1 ) ( ) se reprezintă grafic punctele corespunzătoare. Spre exemplu, considerând o selecţia de date bidimensionale (12 2) (13 3) (21 4) (27 5) (33 1) (34 3) (35 9) (37 4) ( 4) ( 2) (41 7) 37
45 35 3 25 15 5 Graficul valorilor selectiei 2, 4, 7, 41 4, 37 1, 33 3, 34 9, 35 2, 12 3, 13 4, 21 5, 27 2 4 6 8 Selectie Figure 9: Reprezentarea prin puncte a valorilor selecţiei. 5.3.2 Diagrame ca serii de timp Sunt utile atunci când datele selecţiei sunt înregistrate în ordine cronologică, şi arată anumite posibile caracteristici ale selecţiei (tendinţă crescătoare/descrescătoare, periodicitate, etc). Spre exemplu, înregistrând timpul petrecut în apă de un copil (în minute), s-au înregistrat următoarele valori: 12 13 21 27 33 34 35 37 41 Exemplul 5.2 Reprezentând grafic aceste valori, se obţine următorul grafic (se observă tendinţa crescătoare a datelor selecţiei). 6 Minute in apa 5 3 Minute in apa Linear (Minute in apa) 5 15 Figure : Reprezentarea ca serie de timp a valorilor selecţiei. 5.3.3 Diagrame rădăcină-frunză (Stem-and-leaf diagrams) Pentru un număr mare de date de selecţie ( ), aceste reprezentări sunt de preferat celor prin puncte. Pentru a construi această reprezentare, se împarte fiecare valoare observată îndouăpărţi: rădăcină (unasau mai multe cifre de la începutul lui )şi frunză (restul cifrelor după rădăcină). Se aşază apoi fiecare rădăcină într-o coloană verticală şi fiecare frunză în linia corespunzătoare rădăcinii. Spre exemplu, dacă valorile selecţiei sunt 43 119 121 21 33 32 57 45 56 44 38
alegând ca rădăcină cifra zecilor şi a sutelor, iar ca frunză cifra unităţilor, se obţine următoarea reprezentare. Rădăcină Frunză Frecvenţe 2 1 1 3 2 3 2 4 3 5 4 3 5 6 7 2 11 9 1 12 1 1 Aceste reprezentări sunt utile pentru sortarea manuală a valorilor şi/sau pentru calculul manual al frecvenţelor valorilor selecţiei. 5.3.4 Histograme Sunt un mod mai compact de reprezentare a datelor decât cele prin diagrame rădăcină-frunză. Pentru a cosntrui histograma, se împarte domeniul valorilor selecţiei în subintervale disjuncte de lungime egală (5 subintervale sau subintervale, unde este volumul selecţiei). Se determină frecvenţele (relative sau absolute, cumulate sau nu) a datelor selecţiei în aceste subintervale, şi se reprezintă apoipeaxa subintervalele considerate iar pe axa frecvenţele respective (ca înâlţimi ale dreptunghiurilor respective). Spre exemplu, în urma unui sondaj asupra vârstei a angajaţilor, s-a determinat că vârstele acestora sunt cuprinse în intervalul [ 6]. Împărţind vârstele în 5 subintervale de lungime egală, a rezultat următorul tabel. Subinterval Frecvenţe absolute Frecvenţe relative cumulate 22 [ 29) 22 [3 39) 31 53 [ 49) 38 91 [5 6] 5 Se obţine următoarea histograma a frecvenţelor absolute ale selecţiei. 35 3 25 15 5 Frecventa absoluta a vârstelor [,29) [3,39) [,49) [5,6] Frecventa vârstelor Figure 11: Histograma frecvenţelor absolute a selecţiei. Histograma frecvenţelor relative cumulate este o bună indicaţie a funcţiei de distribuţie a populaţiei considerate. 5.3.5 Box-and-whiskers Aceste diagrame sunt utile pentru a arăta modul în care valorile selecţiei sunt dispersate în jurul medianei, fără a arăta însă valorile efective ale selecţiei. Acest tip de reprezentare este folosit atunci când volumul selecţiei este mare, sau pentru a compara două sau mai multe seturi de date. Pentru a construi acest tip de reprezentare, se ordonează mai întâi crescător valorile observate. Se determină apoi mediana (valoarea din mijloc, sau cvartila 2 )şi cvartilele 1 şi 3.Seconstruieşte apoi reprezentarea grafică desenând un dreptunghi între cvartilele 1 şi 3, cu o dreaptă verticală în dreptul medianei, şi în exteriorul acestuia se prelungesc două drepte pentru a indica domeniul valorilor selecţiei. 39
1 Histograma frecventelor relative cumulate a vârstelor 8 6 Frecvente relative cumlate ale vârstelor [,29) [3,39) [,49) [5,6] Figure 12: Histograma frecvenţelor relative cumulate ale selecţiei. Spre exemplu, considerăm datele de selecţie Ordonând crescător aceste date se obţine şirul 13 14 6 9 21 17 15 15 7 13 13 8 11 6 7 8 9 11 13 13 13 14 15 15 17 21 şi se determină mediana 2 = 13 (cum în acest caz avem =15date, mediana este valoarea 15+1 = 8 =13). 2 Se determină apoi cvartila 1 astfel încât cel mult 25% din date sunt mai mici sau egale cu 1. Se obţine 1 =9. Se determină cvartila 3 astfel încât cel mult 75% din date sunt mai mici sau egale cu 3.Seobţine 1 =14. Se reprezintă grafic un dreptunghi între 1 =9şi 3 =14, cu o linie verticală în dreptul medianei 2 =13,şi se prelungesc două drepte orizontale până în dreptul celei mai mici şi a celei mai mari valori (6, respectiv 21). 6 9 1314 21 Figure 13: Diagrama Box-and-Whiskers indică cea mai mică şi cea mai mare valoare a selecţiei (6 şi 21), mediana ( 2 =13)şi domeniul în care sunt cuprinse 25%, 5% şi 75% din date (până la 1 2, respectiv 3 ). 5.3.6 Grafice de probabilitate Sunt mai utile decât histogramele frecvenţelor relative cumulate pentru a determina dacă oanumită selecţie are sau nu o anumită distribuţie (în special în cazul eşantioanelor de volum mic sau mediu). Pentru a construi diagrama de probabilitate, se ordonează maiîntâicrescător datele de selecţie 1 2. Se reprezintă apoipehârtiegrafică corespunzătoare distribuţiei testate (normală, lognormală, etc) punctele 5, =12. Dacă puncteleseaflă aproximativ pe o dreaptă, se poate presupune că populaţia din care provine selecţia are aproximativ distribuţia testată. În caz contrar populaţia nu are distribuţia testată. Pentru a determina graficul de probabilitate folosind hârtia obişnuită, în cazul testării distribuţiei normale, se reprezintă grafic punctele ( ), =12,unde sunt scorurile normale standard date de = Φ 1 µ 5 =1 2
R iar Φ () = 1 2 2 2 este funcţia de distribuţie normală standard (în Excel, Φ () se calculează folosind funcţia NORMSDIST(x), iar Φ 1 () se calculează folosind funcţia NORMSINV(x)). Pentru a testa spre exemplu dacă datele de selecţie 191 5 2 176 183 19 1 5 185 214 provin dintr-o distribuţie normală, construim graficul de probabilitate. Pentru aceasta, ordonăm mai întăi crescător datele de selecţie şi determinăm scorurile normale standardizate = Φ 1 5, =12, ca în tabelul de mai jos. 5 176 5 1645 183 15 36 185 25 674 19 35 385 191 45 126 192 55 126 1 65 385 5 75 674 214 85 36 2 95 1645 Reprezentând grafic punctele de coordonate ( ), =1 2 se obţine graficul de mai jos, şi se observă că aceste puncte sunt situate aproximativ pe o dreaptă. Se poate deci presupune că populaţia din care provin datele este aproximativ o populaţie normală. Graficul de probabilitate al selectiei 25 2 23 2 2 19 18 17 16 15 2. 1.. 1. 2. (x_i,z_i) Linear ((x_i,z_i)) Figure 14: Graficul de probabilitate al selecţiei considerate indică o populaţie aproximativ normală. 41