8 Intervale de încredere În cursul anterior am determinat diverse estimări ˆ ale parametrului necunoscut al densităţii unei populaţii, folosind o selecţie 1 a acestei populaţii. În practică, valoarea calculată ˆ ( 1 ) aluiˆ ( 1 ) folosind valorile observate 1 ale selecţiei 1 nu coincide aproape niciodată cu valoarea reală a parametrului necunoscut. Ne punem problema cât de apropiată esteˆ de valoarea reală alui, în sensul determinării unui interval ( ) ( = ( 1 ) şi = ( 1 ) sunt variabile aleatoare ce depind de variabilele aleatoare 1 ale selecţiei) astfel încât ( ) cu o probabilitate dată, adică ( )=1 pentru o valoare (0 1) fixată. Înlocuind variabilele aleatoare 1 prin valorile observate 1 obţinem = ( 1 ) şi = ( 1 ),şi numim intervalul ( ) un interval de 100 (1 )% încredere pentru parametrul necunoscut. În general, se poate determina un interval de încredere pentru parametrul necunoscut dacă existăovariabilă aleatoare Θ = ( 1 ) cu proprietăţile: 1. Funcţia depinde netrivial de selecţia 1 şi ;. Distribuţia lui Θ nu depinde de sau de alţi parametrii necunoscuţi. În aceste ipoteze, determinarea unui interval de 100 (1 )% încredere pentru se face astfel: se determină constantele şi astfel încât ( ( 1 ) )=1 şi se rezolvă dubla inegalitate în raport cu pentru a obţine ( ( 1 ) ( 1 )) = 1 Variabilele aleatoare şi astfel obţinute dau valorile şi ale intervalului ( ) de 100 (1 )% încredere pentru parametrul necunoscut. 8.1 Intervale de încredere pentru media unei populaţii normale cu dispersie cunoscută Propoziţia 8.1 Dacă 1 sunt valorile observate ale unei selecţii 1 dintr-o populaţie normală N cu dispersie cunoscută, atunci un interval de 100 (1 )% încredere pentru media apopulaţiei este ( ) = µ + unde = 1++ R (Φ () = 1 şi ). este media valorilor observate ale selecţiei iar este determinat astfel încât Φ =1 este funcţia de distribuţie a variabilei aleatoare normale standard - a se vedea Anexele 1 Observaţia 8. (Alegerea volumului al selecţiei) Dacă sedoreşte ca eroarea de estimare să nu depăşească ovaloarelimită cu probabilitate (1 ), adică =1 comparând cu intervalul de (1 )% încredere pentru media obţinem de unde obţinem că volumul al selecţiei trebuie ales astfel încât ³ 55
Observaţia 8.3 În practică, este uneori util ca în loc de intervale simetrice pentru media să avem intervale de mărginire inferioară sau superioară pentru. Procedând în mod similar, se pot obţine următoarele intervale de 100 (1 )% încredere pentru media : ³ -intervaledemărginire inferioară pentru : ( ) = -intervaledemărginire superioară pentru: ( )= ³ + 8. Intervale de încredere pentru medie în cazul selecţiilor mari Reamintim teorema limită centrală: dacă 1 este un şir de variabile aleatoare independente şi identic distribuite, atunci variabila aleatoare 1 + + = 1 ++ = tinde în distribuţie către o variabilă aleatoare normală standard, adică Ã! Φ () = 1 Z oricare ar fi R. Dacă abatereapătratică medie apopulaţiei este necunoscută, atunci înlocuind pe prin estimatorul s P =1 = 1 se poate arăta că pentru suficient de mare ( 40), variabila aleatoare obţinută = N (0 1) este aproximativ o variabilă aleatoare normală standard. Repetând calculul din secţiunea anterioară obţinem deci următoarea. Propoziţia 8.4 Pentru un volum al selecţiei suficient de mare, un interval de 100 (1 )% încredere pentru media apopulaţiei este µ ( ) = + =1 unde = 1++ ( este media valorilor observate ale selecţiei, = ) 1 este o estimare a abaterii pătratice medii, iar este determinat astfel încât Φ =1 a variabilei aleatoare normale standard). R 1 (Φ () = este funcţia de distribuţie 8.3 Intervale de încredere pentru media unei populaţii normale cu dispersie necunoscută Pentru a construi intervalele de încredere în acest caz, avem nevoie de două tipuri de distribuţii continue, şi anume distribuţia şi distribuţia Student. Dacă 1 N (0 1) sunt variabile aleatoare normale standard independente, atunci distribuţia variabilei aleatoare = 1 + + se numeşte distribuţie ( chi pătrat ) cu grade de libertate. Se poate arăta că densitatea acestui tip de variabilă aleatoare este ½ 0 0 () = 1 0 1 unde = Γ( ) este o constantă de normare (aleasă astfelîncâtr () =1). 56
Dacă () este o variabilă aleatoare cu grade de libertate şi N (0 1) este o variabilă aleatoare normală standard, atunci distribuţia variabilei aleatoare = se numeşte distribuţie Student (sau distribuţie T) cu grade de libertate. Se poate arăta că densitatea acestui tip de variabilă aleatoare este µ +1 () = 1+ unde = 1 Γ( +1 ) Γ( ) este o constantă de normare (aleasă astfelîncât R () =1). În secţiunile anterioare am observat că dacă populaţia N este normală, atunci variabila aleatoare este o variabilă aleatoare normală. Dacă abatereapătratică medie nu este cunoscută, atunci înlocuind pe prin estimatorul = obţinem unde = = = r ( 1) 1 = 1 N (0 1) este o variabilă aleatoare nromală standard, iar = P ( ) =1 r =1( ) 1, ( 1) este o variabilă aleatoare cu 1 grade de libertate. Rezultă deci că variabila aleatoare are o distribuţie Student cu 1 grade de libertate, şi alegând ca şi în cazul distribuţiei normale punctul 1 astfel încât aria de sub densitatea acestei distribuţii, aflată ladreapta acestui punct să fie egală cu, obţinem 1 1 =1 Înlocuind pe prin expresia anterioarăşi rezolvând dubla inegalitate în raport cu media, obţinem următoarea. Propoziţia 8.5 Dacă 1 sunt valorile observate ale unei selecţii 1 dintr-o populaţie normală N cu dispersie necunoscută, atunci un interval de 100 (1 )% încredere pentru media apopulaţiei este µ ( ) = 1 + 1 =1 ( ) unde = 1++ este media şi = 1 este abaterea pătratică medie a valorilor observate ale selecţiei, iar 1 este determinat astfel încât 1 =1 ( () este funcţia de distribuţie a variabilei aleatoare Student cu 1 grade de libertate - a se vedea Anexa 3). 8.4 Intervale de încredere pentru dispersia unei populaţii normale Pentru a determina un interval de încredere pentru dispersia necunoscută a unei populaţii normale N vom folosi faptul că variabila aleatoare = ( 1) = are o distribuţie ( 1) cu 1 grade de libertate. X µ =1 57
Considerând în acest caz punctul 1 cu proprietate că aria la dreapta sa, sub densitatea ( 1) cu 1 grade de libertate este, avem ( 1) µ 1 1 1 =1 de unde rezolvând în raport cu obţinem următoarea. Propoziţia 8.6 Dacă 1 sunt valorile observate ale unei selecţii 1 dintr-o populaţie normală N, atunci un interval de 100 (1 )% încredere pentru dispersia apopulaţiei este ( ) = =1 ( ) Ã! ( 1) ( 1) 1 1 1 unde = 1++ este media şi = 1 este abaterea pătratică medie a valorilor observate ale selecţiei, iar 1 este determinat astfel încât 1 =1 ( () este funcţia de distribuţie a variabilei aleatoare cu 1 grade de libertate - a se vedea Anexa 4). Observaţia 8.7 În mod similar se pot determina intervale de încredere de mărginire inferioară sausuperioară pentru dispersie: ³ -intervaledemărginire inferioară pentru : ( ) = ( 1) 1 -intervaledemărginire superioară pentru: ( )= ³ ( 1) 1 1 8.5 Intervale de încredere pentru proporţia unei populaţii Considerăm că sunteminteresaţi de proporţia membrilor unei populaţii ce verifică oanumită caracteristică de interes (membrii populaţiei pot verifica saunuaceastă caracteristică, spre exemplu dacă preferă un anumit candidat electoral, daca sunt sau nu angajaţi, etc). Vom considera deci că populaţia urmează o distribuţie Bernoulli cu parametrul necunoscut ( este probabilitatea ca un membru al populaţiei să verifice caracteristica de interes). Reamintim că media populaţiei (distribuţie Bernoulli cu parametrul ) este = () =1 +0 (1 ) = şi coincide deci cu parametrul necunoscut, iar dispersie este = ³( ) =(1 ) +(0 ) (1 ) = (1 ). Considerăm o selecţie 1 de volum din populaţia, şi deci =1(succes) dacă observaţia verifică acea caracteristică de care suntem interesaţi, şi =0în caz contrar. Media selecţiei ˆ = = 1 ++ este un estimator corect al proporţiei apopulaţiei ce verifică respectiva caracteristică deinteres: ³ µ 1 + + ˆ = = 1 X ( )= 1 X = Deoarece parametrul necunoscut coincide cu media a populaţiei, pentru a determina un interval de încredere pentru parametrul necunoscut procedăm ca şi în cazul determinării unui interval de încredere pentru media unei populaţii cu dispersie necunoscută (în cazul selecţiilor de volum mare, Secţiunea 8.). Din Teorema limită centrală, rezultă căpentru suficient de mare, variabila aleatoare 1 + + p (1 ) = =1 1 ++ (1 ) =1 = ˆ (1 ) are aproximativ o distribuíe normală. Cum dispersia = (1 ) este necunoscută, o înlocuim prin estimatorul c = ˆ ³ 1 ˆ şi obţinem că pentru valori suficient de mari ale lui, variabila aleatoare = N (0 1) are aproximativ o distribuţie normală. ˆ (1 ) Observaţia 8.8 În practică, valori suficient de mari pentru volumul al selecţiei înseamnă că ˆ 15 şi (1 ˆ) 15. 58
Alegând ca şi în cazul estimării mediei punctul cu proprietatea că aria de sub densitatea normală standard, la dreapta acestui punct, este egală cu, obţinem ˆ =1 (56) (1 ) Rezolvând dubla inegalitate în raport cu obţinem următoarea. =1 Propoziţia 8.9 Pentru un volum suficientdemarealselecţiei, dacă ˆ = este proporţia observată aa datelor selecţiei populaţiei ce îndeplinesc un anumit criteriu, atunci un interval de 100 (1 )% încredere pentru proporţia a populaţiei ce verifică acest criteriu este à r r! ˆ (1 ˆ) ˆ (1 ˆ) ( ) = ˆ ˆ + unde este determinat astfel încât Φ R =1 1 (Φ () = este funcţia de distribuţie a variabilei aleatoare normale standard - a se vedea Anexele 1 şi ). Observaţia 8.10 (Alegerea volumului al selecţiei) Dacă sedoreşte ca eroarea de aproximare ˆ să nu depăşească ovaloarelimită cu probabilitate cel puţin (1 ), adică ³ ˆ 1 comparând cu inegalitatea (56) scrisă sub forma echivalentă µ ˆ (1 ), deunderezolvândpentru obţinem condiţia ³ (1 ) (1 ) = 1, se obţine Folosind faptul că (1 ) 1 4,obţinem eroarea de aproximare ˆ nu va depăşi valoarea cu probabilitate cel puţin (1 ) dacă volumul al selecţiei este ales astfel încât 1 ³ ³ (1 ) 4 Observaţia 8.11 Ca şi în celelalte cazuri prezentate, înlocuind prin se pot obţine intervale de mărginire inferioară sau superioară pentru proporţia necunoscută. 8.6 Intervale de predicţie Vom considera problema determinării unui interval de predicţie a unei valori dintr-o populaţie normală N. Pentru aceasta, considerăm o selecţie 1 dintr-o populaţia,şi observăm că valoarea +1 aobservaţiei viitoare verifică +1 = =0 şi şi deci h +1 i = ( +1 )+ µ = + = 1+ 1 = +1 N (0 1) 1+ 1 59
Dacă dispersia P 1 nu este cunoscută, înlocuind prin estimatorul = 1 =1 obţinem variabila aleatoare = +1 şi se poate arăta că variabila aleatoare are o distribuţie Student cu grade de libertate. Pentru a obţine un interval de (1 )% încredere pentru valoarea +1 aobservaţiei viitoare, considerăm punctul cu proprietatea că aria de sub densitatea distribuţiei Student cu grade de libertate la dreapta acestui punct este egală cu, adică =1 unde este funcţia de distribuţie Student cu grade de libertate (a se vedea Anexa 3). Obţinem deci +1 =1 1+ 1 1+ 1 de unde rezolvând în raport cu +1 obţinem echivalent +1 + 1+ 1 1+ 1 =1 Un interval de predicţie de 100 (1 )% încredere pentru observaţia unei valori dintr-o populaţie normală este deci ( ) = 1+ 1 + 1+ 1 unde = 1++ P 1 este media iar = 1 =1 ( ) este dispersia eşantionului 1. 60