Universitatea "Al. I. Cuza" Ia³i Facultatea de Geografie ³i Geologie. [Iulian Stoleriu] Geostatistică. - Note de Curs -
|
|
- Αθάμας Μαρής
- 6 χρόνια πριν
- Προβολές:
Transcript
1 Universitatea "Al. I. Cuza" Ia³i Facultatea de Geografie ³i Geologie [Iulian Stoleriu] Geostatistică - Note de Curs -
2 1 Ce este Geostatistica? [Geostatistica este ³tiinµa ce ofer mijloace de a cuantica incertitudinea spaµial ] Geostatistica poate privita ca ind o subramura a Statisticii, ce se preocupa cu analiza si interpretarea datelor cu caracter geograc. Îsi are originile in industriile miniera si petroliera, incepand cu studiile inginerului sud-african Danie Krige in anii '50 si au fost ulterior continuate si dezvoltate de inginerul Georges Matheron ([7], [8]) in anii '60, care le-a aplicat direct in evaluarea rezervelor miniere. Totusi, anterior anului 1950 au existat si alte lucrari importante, nu neaparat legate de fenomene geologice, dar care au contribuit ulterior la conturarea Geostatisticii ca o disciplina de sine statatoare. Prexul Geo provine de la Geologie si este datorat originilor cercetarilor datelor spatiele. Metodele actuale din Geostatistica au aplicatii in diverse alte domenii, cum ar : Hidrologie, Oceanograe, Meteorologie, Industria forestiera, Epidemiologie, Agricultura etc. Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matematice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt complet cunoscute, cum ar sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese). Exemple de fenomene spatiale sau spatio-temporale de interes in Geostatistic : concentratia poluarii solului, rata inltrarii apei in sol, porozitatea solului, pretul titeiului etc. Multe dintre fenomenele din Geologie sunt extrem de diversicate si vaste. Geologii au ca sarcina realizarea unui model geologic complet plecand de la un numar de observatii/masuratori care, de regula, reprezinta doar o mica fractiune din aria sau volumul de interes. Din cauza complexitatii sistemelor spatiale ce apar in Geologie, realizarea unei descrieri complete a unui sistem spatial este practic imposibila. Mai mult, obtinerea unui numar foarte mare de masuratori este costisitoare. Geostatistica ofera unelte si tehnici de interpolare si extrapolare (atat determinista cat si stochastica), necesare determinarii (prezicerii) valorilor de interes in locatii unde nu au fost facute masuratori. Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite ca ind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu ar oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom vedea ca datele spatiale din Geostatistica nu pot toate generate de o aceeasi repartitie probabilistica. Spre exemplu, se doreste a realiza o harta a ratei inltrarii apei intr-o anumita regiune, ce cuprinde atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata inltrarii apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte apropiate sa e similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce printr-o corelare a valorilor ratelor inltrarii apei masurate in locatii diferite. Vom vedea mai tarziu ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va realizat prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala. Din acest motiv, ecare data spatiala din Geostatistica poate privita ca ind o singura observatie (masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat de repartitiile datelor obtinute cat si de corelatiile intre aceste date, neind constransa sa considere faptul ca toate datele observate au o aceeasi repartitie probabilistica.
3 Geostatistica [Dr. Iulian Stoleriu] 2 Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate) pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate 7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt aleatoare. Se doreste prezicerea valorii in punctul marcat cu culoare rosie. In practica, in urma unor astfel de predictii se pot crea h rµi care sa descrie grac caracteristica de interes. Pentru ca aceste harti sa e cat mai detaliate, este deseori nevoie de computere si de un software specializat. Valorile prezise pot : estimate (folosind metode geostatistice) sau simulate (folosind metode Monte Carlo). Valoarea estimata va determinata pe baza unei metode specice Geostatisticii, numita kriging, si se bazeaza pe valorile observate (masurate) deja si pe corelatia dintre Figura 1.1: Valori ale unei caracteristici aceste valori observate (numita corelograma/variograma). intr-un camp aleator. Foarte pe scurt, o analiza geostatistica urmeaza urmatoarele trei etape principale: (1) analiza descriptiva a datelor spatiale, (2) construirea variogramei empirice si aproximarea ei cu un model teoretic (estimarea variogramei teoretice), (3) predictia (prin metode kriging sau simulari stochastice) valorilor caracteristicii de interes in locatiile unde nu au fost facute masuratori. In functie de natura datelor spatiale studiate, pentru ecare etapa in parte exista metode specice de analiza, etape ce le vom studia in detaliu in cursurile ce urmeaza. Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face predictii folosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi metode de simulare stochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale caracteristicii in pozitia dorita. Modelele probabilistice pot aplicate pentru datele spatiale intr-o maniera asemanatoare analizei seriilor de timp. Astfel, se pot realiza predictii pentru valorile caracteristicii de interes in locatiile unde nu au fost facute masuratori. Geostatistica este o strans legata de metodele de interpolare, dar contine metode de analiza mult mai elaborate decat simplele de interpolare. In scopul de a modela incertitudinea asociata cu estimarea spatiala, aceste metode au la baza functii sau variabile aleatoare. Principalele diferente dintre Statistica clasica si Geostatistica sunt: Datele statistice din Geostatistica tin cont de locatia de unde au fost culese ³i pot corelate cu datele obµinute din alte locaµii. Datele din Statistica clasica nu sunt dependente de locaµie ³i se presupune c acestea sunt observaµii independente ale unei variabile studiate. In Geostatistica, datele culese sunt independente intre ele si nici identic repartizate; In Statistica clasica, o selectie aleatoare contine date ce sunt considerate a multiple realizari independente ³i identic repartizate ale unei singure variabile. In schimb, in Geostatistica, ecare data dintr-o selectie este privita ca o singura realizare a unei variabile, iar aceasta variabila difera cu locatia; Multe rezultate din Geostatistica nu presupun cunoasterea repartitiei datelor observate, desi normalitatea datelor ar un avantaj pentru analiza. Pentru analiza datelor din Statistica clasic este deseori nevoie ca distributia datelor sa e cunoscuta. Multe dintre rezultatele din Statistica clasica se bazeaza pe ipoteza de normalitate a datelor. De regula, datele geostatistice sunt culese in urma impartirii domeniului de masurat in forme regulate
4 Geostatistica [Dr. Iulian Stoleriu] 3 (cubice, hexagonale etc.), asadar locatiile de unde se iau masuratori nu sunt alese in mod cu totul aleator. Datele din Statistica clasic nu sunt neap rat legate de forma regiunii de unde au fost culese. Deoarece datele statistice spatiale pot foarte numeroase, pentru analiza lor este nevoie de ajutorul computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice sunt: ArcMap, Matlab (Mathematics Laboratory), R, GSLIB (Geostatistical Software Library), Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin etc. 2 Elemente de Statistic Scurt istoric Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare de date ³i informaµii, de organizarea ³i interpretarea lor, în vederea explic rii unor fenomene reale. În Economie ³i Business, informaµiile extrase din datele statistice vor utile în evaluarea afacerilor sau a mediului economic în care activeaz, ajutându-i astfel în luarea deciziilor. În general, prin date (sau date statistice) înµelegem o mulµime de numere sau caractere ce au o anumit însemn tate pentru utilizator. Utilizatorul este interesat în a extrage informaµii legate de mulµimea de date pe care o are la îndemân. Datele statistice pot legate între ele sau nu. Suntem interesaµi de studiul acestor date, cu scopul de a înµelege anumite relaµii între diverse tr s turi ce m soar datele culese. De regul, oamenii au anumite intuiµii despre realitatea ce ne înconjoar, pe care le doresc a conrmate într-un mod cât mai exact. De exemplu, dac într-o anumit zon a µ rii rata ³omajului este ridicat, este de a³teptat ca în acea zon calitatea vieµii persoanelor de acolo s nu e la standarde ridicate. Totu³i, ne-am dori s m cât mai preci³i în evaluarea leg turii dintre rata somajului ³i calitatea vieµii, de aceea ne-am dori s construim un model matematic ce s ne conrme intuiµia. Un alt gen de problem : ardem de ner bdare s a m cine va noul pre³edinte, imediat ce secµiile de votare au închis porµile (exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea ³i unicarea tuturor datelor într-un timp record nu este o m sur deloc practic. În ambele probleme menµionate, observaµiile ³i culegerea de date au devenit prima treapt spre înµelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate complet descris de un astfel de model, dar scopul este de a oferi o aproximare cât mai del ³i cu costuri limitate. În ambele situaµii menµionate apar erori în aproximare, erori care µin de întâmplare. De aceea, ne-am dori s putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la colecµiile de date obµinute dintr-o colectivitate, Statistica introduce metode de predicµie ³i prognoz pentru descrierea ³i analiza propriet µilor întregii colectivit µi. Aria de aplicabilitate a Statisticii este foarte mare: ³tiinµe exacte sau sociale, umanistic sau afaceri etc. O disciplin strâns legat de Statistic este Econometria. Aceasta ramur a Economiei se preocup de aplicaµii ale teoriilor economice, ale Matematicii ³i Statisticii în estimarea ³i testarea unor parametri economici, sau în prezicerea unor fenomene economice. Statistica a ap rut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaµiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai bune administr ri. Datorit originii sale, Statistica este considerat de unii ca ind o ³tiinµ de sine st t toare, ce utilizeaz aparatul matematic, ³i nu este privit ca o subramur a Matematicii. Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o ³tiinµ separat de Teoria Probabilit µilor. Datorit revoluµiei computerelor, Statistica a evoluat foarte mult în direcµia computaµional, pe când Teoria Probabilit µilor foarte puµin. A³a cum David Williams scria în [13], "Teoria Probabilit µilor ³i Statistica au fost odat c s torite; apoi s-au separat; în cele din urm au divorµat. Acum abia c se mai întâlnesc". Din punct de vedere etimologic, cuvântului statistic î³i are originile în expresia latin statisticum colle-
5 Geostatistica [Dr. Iulian Stoleriu] 4 gium (însemnând consiliul statului) ³i cuvântul italian statista, însemnând om de stat sau politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecµii ³i clasic ri de date. Metodele statistice sunt ast zi aplicate într-o gam larg de discipline. Amintim aici doar câteva exemple: în Geograe, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei padurilor pe glob; în Geologie, pentru a determina o harta a ratei inltrarii apei intr-o anumita zona ubana; în Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite pe un anumit teren arabil; în Economie, pentru studiul rentabilit µii unor noi produse introduse pe piaµ, pentru corelarea cererii cu ofert, sau pentru a analiza cum se schimb standardele de viaµ ; în Contabilitate, pentru realizarea operaµiunilor de audit pentru clienµi; în Biologie, pentru clasicarea din punct de vedere ³tiinµic a unor specii de plante sau pentru selectarea unor noi specii; în tiinµele educaµiei, pentru a g si cel mai ecient mod de lucru pentru elevi sau pentru a studia impactul unor teste naµionale asupra diverselor caregorii de persoane ce lucreaz în înv µ mânt; în Meteorologie, pentru a prognoza vremea într-un anumit µinut pentru o perioad de timp, sau pentru a studia efectele înc lzirii globale; în Medicin, pentru testarea unor noi medicamente sau vaccinuri; în Psihologie, în vederea stabilirii gradului de corelaµie între timiditate ³i singur tate; în Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaµiei; în tiinµele sociale, pentru a studia impactul crizei economice asupra unor anumite clase sociale; etc. Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai întâi care este colectivitatea asupra c reia se dore³te studiul. Aceast colectivitate (sau populaµie) poate populaµia unei µ ri, sau numai elevii dintr-o ³coal, sau totalitatea produselor agricole cultivate într-un anumit µinut, sau toate bunurile produse într-o uzin. Dac se dore³te studiul unei tr s turi comune a tuturor membrilor colectivit µii, este de multe ori aproape imposibil de a observa aceast tr s tur la ecare membru în parte, de aceea este mult mai practic de a strânge date doar despre o submulµime a întregii populaµii ³i de a c uta metode eciente de a extrapola aceste observaµii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecµii de date, numit Statistic descriptiv. Aceast descriere a tr s turilor unei colectivit µi poate f cut atât numeric (media, dispersia, mediana, cuantile, tendinµe etc), cât ³i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate într-un anumit fel, încât s putem trage concluzii foarte precise despre anumite tr s turi ale întregii colectivit µi. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale întregii colectivit µi, studiind doar o parte din ea, se nume³te Statistic inferenµial. În contul Statisticii inferenµiale putem trece ³i urm toarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare între diverse tipuri de date, estimarea caracteristicilor numerice ale unor tr s turi comune întregii colectivit µi, descrierea leg turii între diverse caracteristici etc.
6 Geostatistica [Dr. Iulian Stoleriu] 5 Modelare Statistic De obicei, punctul de plecare este o problem din viaµa real, e.g., care partid are o susµinere mai bun din partea populaµiei unei µ ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaµie între num rul de ore de lumina pe zi ³i depresie. Apoi, trebuie s decidem de ce tipuri date avem nevoie s colect m, pentru a putea da un r spuns la întrebarea ridicat ³i cum le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit de colectare a datelor ³i s construim un model statistic potrivit pentru analiza acestora. În general, datele (observaµiile sau m sur torile) culese pot potrivite într-un model statistic prin care Data observat = f(x, θ) + eroare de aproximare, (2.1) unde f este o funcµie ce veric anumite propriet µi ³i este specic modelului, x este vectorul ce conµine variabilele m surate ³i θ este un parametru (sau un vector de parametri), care poate determinat sau nedeterminat. Termenul de eroare apare deseori în pratic, deoarece unele date culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot prevazute a priori). Modelul astfel creat este testat, ³i eventual revizuit, astfel încât s se potriveasc într-o m sur cât mai precis datelor culese. Populaµie ³i selecµie Denim o populaµie (colectivitate) statistic ca ind o mulµime de elemente ce posed o trasatur comun ce urmeaz a studiat. Aceasta poate nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi unit µi statistice sau indivizi. Volumul unei colectivit µi statistice este dat de num rul indivizilor ce o constituie. Prin variabila (sau caracteristica) unei populaµii statistice înµelegem o anumit proprietate urm rit la indivizii ei în procesul prelucr rii statistice ³i care constituie obiectul m sur rii. Din punct de vedere statistic, ea este o trasatura sau cantitate legata de populatia studiata, ce poate lua orice valoare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). Spre exemplu: numarul de clienti ce intra intr-un magazin intr-o anumita zi de lucru, inaltimea barbatilor dintr-o anumita tara, rata inltrarii apei in solul urban, media la Bacalaureat, altitudinea, culoarea frunzelor, nationalitatea participantilor la un congres international etc. Variabilele pot : cantitative (m surabile) (e.g., 2, 3, 5, 7, 11,... ) ³i calitative (sau categoriale) (e.g., albastru, foarte bine, german etc). La rândul lor, variabilele cantitative pot discrete (num rul de sosiri ale unui tramvai în staµie) sau continue (timpul de a³teptare între dou sosiri ale tramvaiului în staµie). Datele calitative mai pot nominale sau ordinale. Variabilele nominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului, sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor. De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate : imbunatatire semnicativa, imbunatatire moderata, nicio schimbare, inrautatire moderata, inrautatire semnicativa). Parametrii populaµiei sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a explicate sau estimate pe baza datelor. Spre exemplu, daca populatia formata este formata din multimea persoanelor dintr-o anumita tara, parametrii pot : inaltimea medie, culoarea predominanta a ochilor, deviata standard a masei corporale, varsta medie, procentul de someri, coecientul de corelatie dintre conditiile de trai pentru cei care locuiesc in mediul urban si cei din mediul rural etc. Pentru variabilele cantitative ale populatiei, putem avea urmatoarele tipuri de parametri: parametri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente), parametri care descriu gradul de imprastiere a datelor in jurul unei valori centrale (e.g., dispersia, deviatia standard, coecient de variatie), parametri de pozitie (e.g., cuantile),
7 Geostatistica [Dr. Iulian Stoleriu] 6 parametri ce descriu forma (e.g., skewness, kurtosis). De asemenea, pot deniti parametri ce descriu legatura intre doua variabile ce caracterizeaza populatia de interes. De exemplu corelatia sau coecientul de corelatie dintre nivelul de studii si salariul net. Pentru date calitative (categoriale), cei mai des utilizati parametri sunt: π proportia din populatie ce are caracteristica de interes (e.g., proportia de fumatori din tara), cote (sanse teoretica pentru observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa ploua maine). O variabila a unei populatii poate depinde de unul sau mai multi parametri, parametrii ind astfel trasaturi ce descriu colectivitatea. Spre exemplu, o variabila normala poate descrisa de doi parametri: media si deviatia standard. Suntem interesaµi în a m sura una sau mai multe variabile relative la o populaµie, îns aceasta s-ar putea dovedi o munc extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât ³i din punctul de vedere al depozit rii datelor culese, în cazul în care volumul colectivit µii este mare sau foarte mare (e.g., colectivitatea este populaµia cu drept de vot a unei µ ri ³i caracteristica urm rit este candidatul votat la alegerile prezidenµiale). De aceea, este foarte întemeiat alegerea unei selecµii de date din întreaga populaµie ³i s urm rim ca pe baza datelor selectate s putem trage o concluzie în ceea ce prive³te variabila colectivit µii. O selecµie (sau e³antion) este o colectivitate parµial de elemente extrase (la întâmplare sau nu) din colectivitatea general, în scopul cercet rii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la întâmplare, atunci spunem c am facut o selecµie întâmpl toare. Num rul indivizilor din selecµia aleas se va numi volumul selecµiei. Dac se face o enumerare sau o listare a ec rui element component al unei a populaµii statistice, atunci spunem c am facut un recens mânt. Numim o selecµie repetat (sau cu repetiµie) o selecµie în urma c reia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selecµie nerepetat. Selecµia nerepetat nu prezint interes dac volumul colectivit µii este nit, deoarece în acest caz probabilitatea ca un alt individ s e ales într-o extragere nu este aceea³i pentru toµi indivizii colectivit µii. Pe de alt parte, dac volumul întregii populaµii statistice este mult mai mare decât cel al e³antionului extras, atunci putem presupune c selecµia efectuat este repetat, chiar dac în mod practic ea este nerepetat. Spre exemplu, dac dorim s facem o prognoz a cine va noul pre³edinte în urma alegerilor din toamn, e³antionul ales (de altfel, unul foarte mic comparativ cu volumul populaµiei cu drept de vot) se face, în general, f r repetiµie, dar îl putem considera a o selecµie repetat, în vederea aplic rii testelor statistice. Selecµiile aleatoare se pot realiza prin diverse metode, în funcµie de urm torii factori: disponibilitatea informaµiilor necesare, costul operaµiunii, nivelul de precizie al informaµiilor etc. Mai jos prezent m câteva metode de selecµie. selecµie simpl de un volum dat, prin care toµi indivizii ce compun populaµia au aceea³i ³ans de a ale³i. Aceast metod mininimizeaz riscul de a p rtinitor sau favorabil unuia dintre indivizi. Totu³i, aceast metod are neajunsul c, în anumite cazuri, nu reect componenµa întregii populaµii. Se aplic doar pentru colectivit µi omogene din punctul de vedere al tr s turii studiate. In cazul datelor spatiale, se pot alege prin selectie simpla coordonatele locatiilor de unde se vor efectua masuratori pentru caracteristica de interes. selecµie sistematic, ce presupune aranjarea populaµiei studiate dup o anumit schem ordonat ³i selectând apoi elementele la intervale regulate. (e.g., alegerea a ec rui al 10-lea num r dintr-o carte de telefon, primul num r ind ales la întâmplare (simplu) dintre primele 10 din list ). selecµie straticat, în care populaµia este separat în categorii, iar alegerea se face la întâmplare din ecare categorie. Acest tip de selecµie face ca ecare grup ce compune populaµia s poata reprezentat în selecµie. Alegerea poate facut ³i în funcµie de m rimea ec rui grup ce compune
8 Geostatistica [Dr. Iulian Stoleriu] 7 colectivitatea total (e.g., aleg din ecare judeµ un anumit num r de persoane, proporµional cu num rul de persoane din ecare judeµ). selecµie ciorchine, care este un e³antion straticat construit prin selectarea de indivizi din anumite straturi (nu din toate). selecµia de tip experienµ, care µine cont de elementul temporal în selecµie. (e.g., diver³i timpi de pe o encefalogram ). selecµie de convenienµ : de exemplu, alegem dintre persoanele care trec prin faµa universit µii. selecµie de judecat : cine face selecµia decide cine ramâne sau nu în selecµie. selecµie de cot : selecµia ar trebui s e o copie a întregii populaµii, dar la o scar mult mai mic. A³adar, putem selecta proporµional cu num rul persoanelor din ecare ras, de ecare gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor întregii µ ri, într-o scar mult mai mic ). Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii necunoscuti, obtinand descrieri numerice sau calitative pentru populatie. Astfel de indicatori se numesc statistici. Prin intermeniul statisticilor putem trage concluzii despre populaµia din care a provenit e³antionul observat. Teoria probabilit µilor ne ofer procedee de determinare a repartiµiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiµia exact este acea repartiµie ce poate determinat pentru orice volum al selecµiei. În general, dac se lucreaz cu selecµii de volum redus (sub 30 de masuratori), atunci repartiµia exact ar trebui s e cunoscut a priori, dac se dore³te luarea de decizii prin inferenµ. Repartiµia asimptotic este repartiµia limit a statisticii când volumul esantionului tinde la volumul populatiei. Practic, utilizarea repartitiei asimptotice conduce la rezultate bune doar pentru un esantion sucient de mare (peste 30 de masuratori). De cele mai multe ori, o statistic este utilizat în urm toarele cazuri: în probleme de estimare punctual a parametrilor; în obµinerea intervalelor de încredere pentru un parametru necunoscut; ca o statistic test pentru vericarea ipotezelor statistice. Prin ipoteza statistica intelegem o presupunere facuta referitor la valoarea unui parametru sau la fost repartitiei observatiilor. Vom reveni la acest subiect mai tarziu in acest material. In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga anumite informatii din acestea. Mai concret, Statistica detine uneltele si metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai del si sugestiv acele date (prin grace sau indicatori statistici), sa estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa verice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.
9 Geostatistica [Dr. Iulian Stoleriu] 8 Organizarea ³i descrierea datelor Presupunem c avem o colectivitate statistic, c reia i se urm re³te o anumit caracteristic (sau variabila). Spre exemplu, colectivitatea este mulµimea tuturor studenµilor dintr-o universitate înrolaµi în anul întâi de master, iar caracteristica este media la licenµ obµinut de ecare dintre ace³ti studenµi. Teoretic, mulµimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua orice valoare din acest interval. Vom numi date (sau date statistice) informaµiile obµinute în urma observarii valorilor acestei caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenµ observate. În general, datele pot calitative (se mai numesc ³i categoriale) sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ (exprima o calitate sau o categorie) sau, respectiv, cantitativ (are o valoare numerica). Totodata, aceste date pot date de tip discret, dac sunt obµinute în urma observ rii unei caracteristici discrete (o variabila aleatoare discret, sau o variabila ale carei posibile valori sunt in numar nit sau cel mult numarabil), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor cantitative ³i continue. În Statistica clasic, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z,..., si valorile lor cu litere mici, x, y, z,.... In mare parte din acest curs vom folosi notatia Z pentru variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus notam cu Z variabila medie la licenta, atunci un anume z observat va media la licenta pentru un student din colectivitate ales aleator. În Geostatistic, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala poate unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie doi-dimensionala (sau bidimensionala). Vom nota cu x = (x 1, x 2 ) vectorul de coordonate bidimensionale. Astfel prin Z(x) sau Z(x 1, x 2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x 1, x 2 ) vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom nota prin z 1, z 2, z 3,.... În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale. Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea ³i reprezentarea graca a datelor, dar ³i în calcularea anumitor caracteristici numerice pentru acestea. Datele înainte de prelucrare, adic exact a³a cum au fost culese, se numesc date negrupate. Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.1, reprezentând timpi (în min.sec) de a³teptare pentru primii 100 de clienµi care au a³teptat la un ghi³eu pân au fost serviµi Tabela 2.1: Date statistice negrupate De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urm re³te a se grupa datele, pentru o mai u³oar gestionare. Imaginaµi-v c enumer m toate voturile unei selecµii
10 Geostatistica [Dr. Iulian Stoleriu] 9 nota frecvenµa absolut frecvenµa cumulat frecvenµa relativ frecvenµa relativ cumulat % 2.22% % 6.66% % 15.55% % 32.22% % 52.22% % 71.11% % 87.78% % 95.56% % 100% Total % - Tabela 2.2: Tabel cu frecvenµe pentru date discrete. întâmpl toare de de votanµi, abia ie³iµi de la vot. Mai degrab, ar mai util ³i practic s grup m datele dup numele candidaµilor, precizând num rul de voturi ce l-a primit ecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase de interes. Gruparea datelor Datele prezentate sub form de tabel (sau tablou) de frecvenµe se numesc date grupate. Datele de selecµie obµinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Date de tip discret: Dac datele de selecµie sunt discrete (e.g., {z 1, z 2,..., z n }), este posibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z 1, z 2,..., z r, r n. Atunci, putem grupa datele într-un a³a-numit tabel de frecvenµe (vezi exemplul din Tabelul 2.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenµe, dup cum urmeaz : data z 1 z 2... z r frecventa f 1 f 2... f r (2.2) unde f i este frecvenµa apariµiei valorii z i, (i = 1, 2,..., r), ³i se va numi distribuµia empiric de selecµie a lui Z. Aceste frecvenµe pot absolute sau de relative. Un tabel de frecvenµe (sau o distribuµie de frecvenµe) conµine cel puµin dou coloane: o coloan ce reprezint datele observate (grupate în clase) ³i o coloan de frecvenµe. În prima coloan apar clasele, adic toate valorile distincte observate. Datele din aceast coloan nu se repet. Prin frecvenµa absolut a clasei înµelegem num rul de elemente ce aparµine ec rei clase în parte. De asemenea, un tabel de frecvenµe mai poate conµine frecvenµe relative sau cumulate. O frecvenµ relativ se obµine prin împ rµirea frecvenµei absolute a unei categorii la suma tuturor frecvenµelor din tabel. Astfel, suma tuturor frecvenµelor relative este egal cu 1. Frecvenµa (absolut ) cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor absolute pân la (inclusiv) clasa respectiv. Frecvenµa relativ cumulat a unei clase se obµine prin cumularea tuturor frecvenµelor relative pân la (inclusiv) clasa respectiv. A³adar, elementele unui tabel de frecvenµe pot : clasele (ce conµin valori pentru variabile), frecvenµe absolute, frecvenµe relative sau cumulate. Într-un tabel, nu este obligatoriu s apar toate coloanele cu frecvenµe sau ele s apar în aceast ordine. Vom numi o serie de timpi (sau serie dinamic ori cronologic ) un set de date culese la momente diferite
11 Geostatistica [Dr. Iulian Stoleriu] 10 de timp. O putem reprezenta sub forma unui tablou de forma ( z1 z 2... z n data : t 1 t 2... t n ), unde z i sunt valorile caracteristicii, iar t i momente de timp (e.g., r spunsurile citite de un electrocardiograf). În Tabelul 2.2, sunt prezentate notele studenµilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret. (o glum povestit de G. Pólya, 1 despre cum NU ar trebui interpretat frecvenµa relativ ) Un individ suferind merge la medic. pacientului: Medicul îl examineaz îndelung ³i, balansând dezam git capul, îi spune "Of... drag domnule pacient, am dou ve³ti: una foarte proast ³i una bun. Mai întâi v aduc la cuno³tinµ vestea proast : suferiµi de o boal groaznic. Statistic vorbind, din zece pacienµi ce contracteaz aceast boal, doar unul scap." Pacientul, deja în culmea disper rii, este totu³i consolat de doctor cu vestea cea bun : "Dar, µi pe pace! Dumneavoastr aµi venit la mine, ³i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacienµi ce au avut aceea³i boal ³i toµi au murit, a³a c... veµi supravieµui!" (2) Date de tip continuu: Dac datele statistice sunt realiz ri ale unei variabile Z de tip continuu, atunci se obi³nuieste s se fac o grupare a datelor de selecµie în clase. Datele de tip continuu pot grupate într-un tablou de distribuµie sau sub forma unui tabel de distribuµie, dupa cum urmeaza: data [a 0, a 1 ) [a 1, a 2 )... [a r 1, a r ) frecventa f 1 f 2... f r clasa frecvenµa valoare medie [a 0, a 1 ) f 1 z 1 [a 1, a 2 ) f 2 z 2. [a r 1, a r ) f r z r.. Tabela 2.3: Tabel cu frecvenµe pentru date de tip continuu. În particular, putem grupa datele de tip continuu din Tabelul 2.1 în tabloul de distribuµie urm tor: data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6) frecventa Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot modicate dupa cum doreste utilizatorul. Uneori, tabelul de distribuµie pentru o caracteristic de tip continuu mai poate scris ³i sub forma unui tabel ca in (2.2), unde z i = a i 1 + a i 2 este elementul de mijloc al clasei [a i 1, a i ); f i este frecvenµa apariµiei valorilor din [a i 1, a i ), (i = 1, 2,..., r), r f i = n. 1 György Pólya ( ), matematician ungur
12 Geostatistica [Dr. Iulian Stoleriu] 11 vârsta frecvenµa frecvenµa relativ frecvenµa cumulat vârsta medie [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 2.4: Tabel cu frecvenµe pentru rata somajului. Pentru denirea claselor unui tabel de frecvenµe, nu exist o regul precis. Fiecare utilizator de date î³i poate crea propriul tabel de frecvenµe. Scopul nal este ca acest tabel s scoat în evidenµ caracteristicele datelor, cum ar : existenµa unor grupe (clase) naturale, variabilitatea datelor într-un anumit grup (clas ), informaµii legate de existenµa unor anumite date statistice care nu au fost observate in selecµia dat etc. În general, aceste caracteristici nu ar putea observate privind direct setul de date negrupate. Totu³i, pentru crearea tabelelor de frecvenµe, se recomand urm torii pa³i: 1. Determinarea num rului de clase (disjuncte). Este recomandat ca num rul claselor s e între 5 ³i 20. Dac volumul datelor este mic (e.g., n < 30), se recomand constituirea a 5 sau 6 clase. De asemenea, dac este posibil, ar util ca ecare clas s e reprezentat de cel puµin 5 valori (pentru un num r mic de clase). Dac num rul claselor este mai mare, putem avea ³i mai puµine date într-o clas, dar nu mai puµin de 3. O clas cu prea puµine valori (0, 1 sau 2) poate s nu e reprezentativ. 2. Determinarea l µimii claselor. Dac este posibil, ar bine dac toate clasele ar avea aceea³i l µime. Acest pas depinde, în mare m sura, de alegerea din pasul anterior. 3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât ecare dat statistic s aparµine unei singure clase. În practic, un tabel de frecvenµe se realizeaz prin încerc ri, pân avem convingerea c gruparea f cut poate surprinde cât mai del datele observate. A³adar, dac ne este dat o în³iruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat în tabele sau tablouri de frecvenµe. Invers (avem tabelul sau tabloul de repartiµie ³i vrem s enumer m datele) nu este posibil, decât doar în cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 2.4, ce reprezint rata somajului într-o anumit regiune a µ rii pe categorii de vârste, nu am putea ³ti cu exactitate vârsta exact a persoanelor care au fost selecµionate pentru studiu. Observ m c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obµinut prin media valorilor extreme ale clasei. În cazul Tabelului 2.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenµa cumulat a unei clase este suma frecvenµelor tuturor claselor cu valori mai mici.
13 Geostatistica [Dr. Iulian Stoleriu] 12 3 Reprezentarea datelor statistice Un tabel de frecvenµe sau o distribuµie de frecvenµe (absolute sau relative) sunt de cele mai multe ori baza unor reprezent ri grace, pentru o mai bun vizualizare a datelor. Aceste reprezent ri pot f cute în diferite moduri, dintre care amintim pe cele mai uzuale. 3.1 Reprezentare prin puncte Reprezentarea prin puncte (en., dot plot) este folosit, de regula, pentru selecµii de date de tip discret de dimensiuni mici. Sunt reprezentate puncte a³ezate unul peste celalalt, reprezentând num rul de apariµii ale unei valori pentru caracteristica dat. Un astfel de grac este reprezentat în Figura 3.1. Aceste reprezent ri sunt utile atunci când se dore³te scoaterea în evidenµ a anumitor pâlcuri de date (en., clusters) sau chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate. Figura 3.1: Reprezentarea cu puncte. 3.2 Reprezentarea stem-and-leaf Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Urm torul set de date negrupate reprezinta punctajele (din 100 de puncte) obµinute de cei 20 de elevi ai unui an de studiu la o testare semestrial : Tabelul 3.3 reprezint aceste date sub forma stem-and-leaf (ramur -frunz ). Se observ c acest tabel arat atât cum sunt repartizate datele, cât ³i forma repartiµiei lor (a se privi gracul c având pe OY drept axa absciselor ³i OX pe cea a ordonatelor). A³adar, 7 5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. În secµiunile urm toare vom prezenta ³i alte metode utile.
14 Geostatistica [Dr. Iulian Stoleriu] 13 stem leaf Figura 3.2: Reprezentarea datelor discrete. Figura 3.3: Tabel stem-and-leaf reprezentând punctajele studenµilor. 3.3 Reprezentarea cu bare (bar charts) Este util pentru reprezentarea variabilelor discrete cu un num r mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenµele ³i nu sunt unite între ele. Fiecare dreptunghi reprezint o singur valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenµele pe vertical. În Figura sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor ³i a claselor; în acest caz barele vor ap rea pe orizontal (vezi Figura ). Figura 3.4: Reprezent rile cu bare. Figura 3.5 contine o reprezentare de date folosind bare 3D.
15 Geostatistica [Dr. Iulian Stoleriu] 14 Figura 3.5: Reprezentare 3D prin bare. 3.4 Histograme Cuvântul "histogram " a fost introdus pentru prima oar de Karl Pearson 2 în Acesta deriv din cuvintele grece³ti histos (gr., ridicat în sus) ³i gramma (gr., desen, înregistrare). O histogram este o form pictorial a unui tabel de frecvenµe, foarte util pentru selecµii mari de date de tip continuu. Se aseam n cu reprezentarea prin bare, cu urm toarele dou diferenµe: nu exist spaµii între bare (de³i, pot ap rea bare de înalµime zero ce arat a spaµiu liber) ³i ariile barelor sunt proporµionale cu frecvenµele corespunz toare. Num rul de dreptunghiuri este egal cu num rul de clase, l µimea dreptunghiului este intervalul clasei, iar în lµimea este a³a încât aria ec rui dreptunghi reprezint frecvenµa. Aria total a tuturor dreptunghiurilor este egal cu num rul total de observaµii. Dac barele unei histograme au toate aceea³i l µime, atunci în lµimile lor sunt proporµionale cu frecvenµele. În lµimile barelor unei histogramei se mai numesc ³i densit µi de frecvenµ. În cazul în care l µimile barelor nu sunt toate egale, atunci în lµimile lor satisfac: în lµimea = k frecvenµa l µimea clasei, k = factor de proporµionalitate. S presupunem c am grupat datele din Tabelul 3.1 într-o alt manier, în care clasele nu sunt echidistante (vezi Tabelul 3.3). În Tabelul 3.3, datele din ultimele dou clase au fost cumulate într-o singur clas, de l µime mai mare decât celelalte, deoarece ultima clas din Tabelul 3.1 nu avea suciente date. Histograma ce reprezint datele din Tabelul 3.3 este cea din Figura 3.4. Conform cu regula proporµionalit µii ariilor cu frecvenµele, se poate observa c primele patru bare au în lµimi egale cu frecvenµele corespunz toare, pe când în lµimea ultimei bare este jum tate din valoarea frecvenµei corespunz toare, deoarece l µimea acesteia este dublul l µimii celorlalte. 2 Karl Pearson ( ), statistician, avocat ³i eugenist britanic
16 Geostatistica [Dr. Iulian Stoleriu] 15 În lµimea (în cm) frecvenµa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 25) 10 [25, 30) 2 Tabela 3.1: Tabel cu în lµimile plantelor. Tabela 3.2: Histograme pentru datele din Tabelul 3.1. În general, pentru a construi o histogram, vom avea în vedere urm toarele: datele vor împ rµite (unde este posibil) în clase de lungimi egale. Uneori aceste diviz ri sunt naturale, alteori va trebui s le fabric m. num rul de clase este, în general, între 5 ³i 20. înregistraµi num rul de date ce cad în ecare clas (numite frecvenµe). gura ce conµine histograma va avea clasele pe orizontal ³i frecvenµele pe vertical. Figura 3.6: Histogram 3D. Observaµia 3.1 (1) Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 3.3 este [20, )), atunci se obi³nuie³te ca l µimea ultimului interval s e luat drept dublul l µimii intervalului precedent. (2) În multe situaµii, capetele intervalelor claselor sunt ni³te aproxim ri, iar în locul acestora vom putea utiliza alte valori. Spre exemplu, s consider m clasa [15, 20). Aceast clas reprezint clasa acelor plante ce au în lµimea cuprins între 15cm ³i 20cm. Deoarece valorile în lµimilor sunt valori reale, valorile 15 ³i 20 sunt, de fapt, aproxim rile acestor valori la cel mai apropiat întreg. A³adar, este posibil ca aceast clas s conµin acele plante ce au în lµimile situate între 14.5cm (inclusiv) ³i 20.5cm (exclusiv). Am putea face referire la aceste valori ca ind valorile reale ale clasei, numite frontierele clasei. În cazul în care am determinat frontierele clasei, l µimea unei clase se dene³te ca ind diferenµa între frontierele ce-i corespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele , l µimea 6 ³i densitatea de frecvenµ Pentru exemplicare, în Tabelul 3.5 am prezentat frontierele claselor, l µimile lor ³i densit µile de frecvenµ pentru datele din Tabelul Reprezentare prin sectoare de disc (pie charts) Se poate reprezenta distribuµia unei caracteristici ³i folosind sectoare de disc (diagrame circulare) (en., pie charts), ecare sector de disc reprezentând câte o frecvenµ relativ. Aceast variant este util în
17 Geostatistica [Dr. Iulian Stoleriu] 16 În lµimea (în cm) frecvenµa [0, 5) 5 [5, 10) 13 [10, 15) 23 [15, 20) 17 [20, 30) 12 Tabela 3.3: Tabel cu în lµimile plantelor. Tabela 3.4: Histograme pentru datele din Tabelul 3.3. în lµimea (în cm) frontierele l µimea frecvenµa densitatea de frecvenµ [18, 25) [25, 35) [35, 45) [45, 55) [55, 65) Tabela 3.5: Tabel cu frontierele claselor. special la reprezentarea datelor calitative. Exist ³i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 am reprezentat datele din Tabelul 2.4. Figura 3.7: Reprezentarea pe disc a frecvenµelor relative ale notelor din tabelul cu note Figura 3.8: Reprezentare pe disc 3D
18 Geostatistica [Dr. Iulian Stoleriu] Ogive O ogiv reprezint gracul unei frecvenµe cumulate (absolut sau relativ ) (vezi exemplul din Figura 3.9). Figura 3.9: Ogiva pentru frecvenµele absolute cumulate din Tabelul Diagrama Q-Q sau diagrama P-P Q-Q plot (diagrama cuantila-cuantila) si P-P plot (diagrama probabilitate-probabilitate) sunt utilizate in a determina apropierea dintre doua seturi de date (repartitii). Daca datele provin dintr-o acceasi repartitie, atunci ele se aliniaza dupa o dreapta desenata in gura. Diagrama Q-Q este bazata pe rangurile valorilor, iar diagrama P-P este bazata pe functiile de repartitie empirice. Figura 3.10: Exemplu de diagrama Q-Q plot
19 Geostatistica [Dr. Iulian Stoleriu] 18 4 Noµiuni teoretice de Statistic Numim experiment aleator (sau experienµ aleatoare) orice act cu rezultat incert, care poate repetat în anumite condiµii date. Opusul noµiunii de experiment aleator este experimentul determinist, semnicând un experiment ale c rui rezultate sunt complet determinate de condiµiile în care acesta se desf ³oar. Rezultatul unui experiment aleator depinde de anumite circumstante întâmpl toare ce pot aparea. Exemple de experienµe aleatoare: extragerea LOTO, aruncarea zarului, observarea ratei inltrarii apei in sol in diverse locatii dintr-o anumita regiune, determinarea concentratiei de nutrienti in sol, observarea duratei de viaµ a unui individ, observarea vremii de a doua zi, observarea num rului de apeluri telefonice recepµionate de o central telefonic într-un timp dat etc. Vom numi mulµime (sau spatiu) de selecµie asociat unui experiment mulµimea tuturor rezultatelor posibile ale acelui experiment. Notam acasta multime cu Ω. Aplicarea experienµei asupra unei colectivit µi date se nume³te prob. Vom numi eveniment aleator orice colecµie de rezultate posibile asociate experimentului aleator. Vom numi eveniment aleator elementar (sau eveniment aleator simplu) un eveniment aleator care are un singur rezultat posibil. Un eveniment aleator cu mai mult de un rezultat posibil se va numi eveniment aleator compus. Exemple de evenimente aleatoare: apariµia unei duble (6, 6) la aruncarea a dou zaruri este un eveniment aleator elementar, iar obµinerea unei duble la aruncarea a dou zaruri este un eveniment aleator compus. Vom numi evenimentul sigur acel eveniment care se poate realiza în urma oric rei experienµe aleatoare. Evenimentul sigur este, in fapt, chiar multimea de selectie Ω, ce este multimea tuturor evenimentelor elementare. Prin eveniment imposibil intelegem acel eveniment ce nu se realizeaz în nicio prob. Evenimentul imposibil asociat unei experiente aleatoare se noteaza prin. Se nume³te caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se realizeaz macar intr-o proba a sa. Evenimentele aleatoare le vom nota cu A, B, C,.... Prin A (care se citeste non A) vom nota evenimentul complementar lui A, care se realizeaz atunci când A nu se realizeaz. Avem: A = Ω \ A. Operatii cu evenimente Presupunem ca A si B sunt doua evenimente legate de un anumit experiment aleator. urmatoarele evenimente: Putem deni evenimentul A B (citit A sau B) este evenimentul care se realizeaza ori de cate ori se realizeaza cel putin unul dintre evenimentele A si B. evenimentul A B (citit A ³i B) este evenimentul care se realizeaza ori de cate ori se realizeaza simultan evenimentele A si B. evenimentul A \ B (citit A minus B) este evenimentul care se realizeaza ori de cate ori se realizeaza A, dar nu se realizeaza B. Relatii intre evenimente Notam prin A B (citit A implic B) si spunem ca realizarea lui A implica realizarea lui B. Spunem ca A = B (citit A egal B) daca A B si B A. Spunem ca A si B sunt evenimente incompatibile daca ele nu se pot realiza simultan in nicio proba. Scriem astfel: A B =.
20 Geostatistica [Dr. Iulian Stoleriu] 19 Spunem ca A si B sunt evenimente compatibile daca ele se pot realiza simultan. Scriem astfel: A B. De exemplu, la aruncarea unui zar, evenimentele A =evenimentul aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile. Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare. exemplu, la aruncarea unei monede ideale, orice fata are aceeasi ³ans de aparitie. Spre 4.1 Probabilitate Pentru a putea cuantica ³ansele de realizare a unui eveniment aleator, s-a introdus noµiunea de probabilitate. Presupunem c pentru un anume experiment, am construit spaµiul de selecµie Ω. Atunci, ec rui eveniment A în putem asocia un num r P (A), numit probabilitatea realiz rii evenimentului A (sau, simplu, probabilitatea lui A), ind o m sur precis a ³anselor ca A s se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P ( ) = 0 (probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P (Ω) = 1 (probabilitatea ca evenimentul sigur sa se realizeze este 1). Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ), atunci P (A B) = P (A) + P (B). Daca A si B se pot realiza simultan, atunci P (A B) = P (A) + P (B) P (A B). În literatura de specialitate, probabilitatea este denit în mai multe moduri: cu deniµia clasic (apare pentru prima oar în lucr rile lui P. S. Laplace 3 ), folosind o abordare statistic (cu frecvenµe relative), probabilitatea denit geometric, probabilitatea bayesian (introdus de Thomas Bayes 4 ) sau utilizând deniµia axiomatic (Kolmogorov). Aici vom prezenta doar primele trei moduri. (I) Probabilitatea clasic este denit doar pentru cazul în care experienµa aleatoare are un num r nit de cazuri posibile ³i echiprobabile (toate au aceea³i ³ans de a se realiza). În acest caz, probabilitatea de realizare a unui eveniment A este P (A) = numarul cazurilor favorabile realizarii evenimentului. numarul cazurilor egal posibile De exemplu, dorim s determin m probabilitatea obµinerii unei duble la o singur aruncare a unei perechi de zaruri ideale. Mulµimea cazurilor posibile este mulµimea tuturor perechilor {(i, j); i, j = 1, 6}, care are 36 de elemente. Mulµimea cazurilor favorabile este format din adic 6 elemente, ³i anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariµiei unei duble este P = 6 36 = 1 6. Sunt îns foarte multe cazuri în care deniµia clasic nu mai poate utilizat. Spre exemplu, în cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din p tratul [0, 1] [0, 1], acesta s se situeze deasupra primei bisectoare. În acest caz, atât num rul cazurilor posibile, cât ³i num rul cazurilor favorabile este innit, f când deniµia clasic a probabilit µii inutilizabil. (II) Probabilitatea denit statistic (probabilitate frecvenµial ) exprim probabilitatea cu ajutorul frecvenµelor de realizare a unui eveniment într-un num r mare de experimente aleatoare realizate în acelea³i condiµii. Pentru a putea evalua aceast probabilitate, este necesar repetarea în acelea³i condiµii a experimentului legat de evenimentul aleator ce se dore³te a cuanticat. S consider m o experienµ aleatoare (e.g., aruncarea unui zar) al c rei rezultat posibil este evenimentul aleator A (e.g., apariµia feµei cu 6 puncte). Aceste experiment aleator îl putem efectua de n ori în condiµii identice (spunem c efectu m n probe ale experimentului), astfel încât rezultatul unei probe s nu inuenµeze rezultatul alteia (probe independente). S not m cu ν n (A) frecvenµa absolut de realizare a lui A în cele N probe independente. Raportul f n (A) = ν n(a) se va numi frecvenµ relativ. Acest raport are n 3 Pierre-Simon, marquis de Laplace ( ), matematician ³i astronom francez 4 Thomas Bayes ( ), statistician ³i losof englez
21 Geostatistica [Dr. Iulian Stoleriu] 20 intotdeauna valori intre 0 si 1. Mai mult, sirul frecventelor relative {f n (A)} n N are limit ³i aceasta este denit ca ind probabilitatea de realizare a evenimentului A, notat P (A). A³adar, în cazul deniµiei statistice a probabilit µii, probabilitatea unui eveniment A este P (A) = lim n f n(a), adica limit ³irului frecvenµelor relative de producere a respectivului eveniment când num rul de probe tinde la innit. (III) Probabilitate denit geometric S presupunem c am dispune de un procedeu prin care putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune c acest procedeu ne asigur c nu exist porµiuni privilegiate ale intervalului [a, b], i.e., oricare ar dou subintervale de aceea³i lungime, este la fel de probabil ca punctul s cad în oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un num r mare de puncte, acestea vor repartizate aproximativ uniform în [a, b], i.e., nu vor exist puncte în vecin tatea c rora punctul ales s cad mai des, ori de câte ori este ales. De aici reiese c probabilitatea ca un punct s cad într-un subinterval al lui [a, b] este dependent de lungimea acelui subinterval ³i nu de poziµia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporµional cu lungimea subintervalului. Se poate observa analogia cu experienµa alegerii dintr-un num r de cazuri egal posibile. Dac [a, b] e mulµimea cazurilor egal posibile ³i [c, d] [a, b] este mulµimea cazurilor favorabile, atunci probabilitatea ca punctul ales s cad în [c, d] este P (A) = lungimea ([c, d]) lungimea ([a, b]) = d c b a. În particular, dac z (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid cu un punct dinainte stabilit este zero ³i, astfel, întrez rim posibilitatea teoretic ca un eveniment s aib probabilitatea nul, far ca el s e evenimentul imposibil. Exemplu 4.1 S presupunem c experimentul aleator const în alegerea la întâmplare a unui num r real din intervalul (0, 1), a³a încât ecare punct din acest interval are aceea³i ³ans de a ales. Dac not m cu Z v.a. care reprezint num rul ales, atunci Z va urma repartiµia uniform continu U(0, 1). Not m cu A evenimentul ca Z s nu ia valoarea 0.5. Matematic, scriem evenimentul astfel: A = {ω Ω; Z(ω) 0.5} sau, prescurtat, {Z 0.5}. Atunci, P (A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic, este posibil ca, din mai multe probe independente ale experimentului, s obµinem valoarea 0.5. În mod cu totul analog, dac se alege la întâmplare ³i în mod uniform un punct dintr-o regiune planara R, astfel ca s nu existe puncte sau porµiuni privilegiate în aceasta regiune, atunci probabilitatea ca punctul s cad în subregiunea R R este aria R aria. R În trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulµimii cazurilor favorabile realizarii experimentului ³i volumul mulµimii cazurilor egal posibile.
22 Geostatistica [Dr. Iulian Stoleriu] Variabile aleatoare În general, rezultatul posibil al unui experiment aleator poate asociat unei valori reale, precizând regula de asociere. O astfel de regul de asociere se nume³te variabil aleatoare (prescurtat, v.a.). Se nume³te variabil deoarece poate lua valori diferite, se nume³te aleatoare deoarece valorile observate depind de rezultatele experimentului aleator, ³i este "real " deoarece valoarea numeric este un num r real. A³adar, din punct de vedere euristic, o variabil aleatoare este o cantitate ce poate avea orice valoare dintr-o multime data, ecarei valori atribuindu-se o anumita pondere (frecventa relativa). În viaµ de zi cu zi întâlnim numeroase astfel de funcµii, e.g., numerele ce apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii, num rul clienµilor deserviµi la un anumit ghi³eu într-o anumit perioad, timpul de a³teptare a unei persoane într-o staµie de autobuz pân la sosirea acestuia, calicativele obµinute de elevii de clasa a IV-a la un test de matematic etc. De regula, variabilele aleatoare sunt notate cu litere de la sfâr³itul alfabetului, X, Y, Z sau ξ, η, ζ etc. Cum am mai precizat anterior, in acest material vom volosi notatia Z pentru o variabila (Z(x) pentru o variabila spatiala) si z pentru realizarea sa (respectiv, z(x)). Exemplu 4.2 Un exemplu simplu de variabila aleatoare este urm torul. Consider m experimentul aleator al arunc rii unei monede. Acest experiment poate avea doar dou rezultate posibile, notate S (stema) ³i B (banul). A³adar, spaµiul selecµiilor este Ω = {S, B}. Acestui experiment aleator îi putem ata³a variabila aleatoare real Z, care asociaz feµei S valoarea 1 ³i feµei B valoarea 0. Matematic, scriem astfel: Z : Ω R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 ³i 0 pentru Z vor indica faµa ap rut la aruncarea monedei. O astfel de variabil aleatoare se nume³te variabil aleatoare Bernoulli ³i poate ata³at oric rui eveniment aleator ce are doar dou rezultate posibile, numite generic succes ³i e³ec. Variabilele aleatoare (prescurtat v.a.) pot discrete sau continue. Variabilele aleatoare discrete sunt cele care pot lua o mulµime nit sau cel mult num rabil (adica, o multime care poate numarata) de valori. O variabil aleatoare se nume³te variabil aleatoare continu (sau de tip continuu) dac mulµimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real (posibil innit) sau toate numerele dintr-o reuniune disjunct de astfel de intervale, cu precizarea c pentru orice posibil valoare c, P (Z = c) = 0. Exemple de v.a. discrete: num rul feµei ap rute la aruncarea unui zar, num rul de apariµii ale unui tramvai într-o staµie într-un anumit interval, num rul de insuccese ap rute pân la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de a³teptare la un ghi³eu pân la servire, preµul unui activ nanciar într-o perioad bine determinat. Pentru a specica o v.a. discret, va trebui s enumer m toate valorile posibile pe care aceasta le poate lua, împreun cu probabilit µile corespunzatoare. Suma tuturor acestor probabilit µi va întotdeauna egal cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire la repartiµia unei v.a. discrete, se înµelege modul în care probabilitatea total 1 este distribuit între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compact, adeseori unei v.a. discrete i se atribuie urm toarea reprezentare schematica: tabelul de repartiµie Z z 1 z 2 z 3... z n p k p 1 p 2 p 3... z n (4.1) unde p k este probabilitatea cu care variabila Z ia valoarea z k (matematic, scriem p k = P (Z = z k )) ³i suma tuturor probabilit µilor corespunz toare variabilei discrete este egal cu 1 (scriem ca p i = 1).
23 Geostatistica [Dr. Iulian Stoleriu] 22 Exemplu 4.3 Presupunem c Z este v.a. ce reprezint num rul de puncte ce apare la aruncarea unui zar ideal. Aceast variabila o putem reprezenta schematic ca in tabelul alaturat. tabelul de repartiµie Z p k 1/6 1/6 1/6 1/6 1/6 1/6 Dac Z este o v.a. discret de forma (4.1), atunci denim funcµia de probabilitate (de frecvenµ ) (en., probability mass function) ata³at variabilei aleatoare discrete Z ca ind o funcµie ce ataseaza ecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matematic, scriem ca f(z i ) = p i, i {1, 2,..., n}. În cuvinte, pentru ecare posibil valoare a unei v.a. discrete, funcµia de probabilitate ata³eaz probabilitatea cu care Z ia aceast valoare. Funcµia de probabilitate este pentru o v.a. discreta ceea ce o densitate de repartiµie este pentru o variabil aleatoare continu. Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un interval a chiar din R. Deoarece in aceste multimi exista o innitate de valori, nu mai putem deni o variabila aleatoare continua la fel ca in cazul discret, precizandu-i ecare valoare pe care o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiµie (en., probability density function). Exemplu 4.4 Vom spune c o variabila aleatoare Z are o repartitie (sau distributie) normala de medie µ ³i deviatie standard σ (notam aceasta prin Z N (µ, σ)) dac Z poate lua orice valoare reala si are densitatea de repartitie data de: f(x; µ, σ) = 1 σ (x µ) 2 2π e 2σ 2, pentro orice x R. Aceasta repartitie se mai nume³te ³i repartiµia gaussian sau distribuµia gaussian. Funcµia de probabilitate sau densitatea de repartiµie poate depinde de unul sau mai mulµi parametri reali. Spre exemplu, repartitia normala are doi parametri, µ si σ. Funcµia de repartiµie (sau funcµia de repartiµie cumulat ) Numim funcµie de repartiµie ata³at v.a reale Z o funcµie F : R [0, 1], denit prin F (z) = P (Z z), pentru orice x R. Termenul din englez pentru funcµia de repartiµie este cumulative distribution function (cdf). Functia de repartitie asociaza ecarei valori reale z probabilitatea cu care variabila Z ia valori mai mici sau egale cu z. Ea este o functie crescatoare, care ia valori intre 0 si 1. În cazul unei variabile aleatoare discrete, cu tabelul de repartiµie dat de (4.1), funcµia de repartiµie este: F (z) = p i, (4.2) {i; z i z} adic suma tuturor probabilit µilor corespunz toare valorilor lui Z care nu-l dep ³esc pe z.
24 Geostatistica [Dr. Iulian Stoleriu] 23 Dac Z este o variabil aleatoare continu ³i f este densitatea sa de repartiµie, atunci funcµia de repartiµie este dat de formula: Mai mult, F (z) = f(z), pentru orice z R. z F (z) = f(t) dt, z R. (4.3) 4.3 Caracteristici numerice ale unei variabile aleatoare (parametri) O colectivitate statistica poate descrisa folosind una sau mai multe variabile. Pentru ecare dintre aceste variabile se pot determina anumite cantitati sau calitati specice, numite parametri. Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii, ce pot determinate sau estimate pe baza unor masuratori (observatii) ale variabilelor. In continuare vom prezenta cativa parametri numerici importanti pentru o variabila aleatoare, folositi in analiza statistica. Vom denumi acesti parametri caracteristici numerice ale unei variabile aleatoare. Media (sau valoarea a³teptat ) (en., expected value; fr., espérance; ger., Erwartungswert) Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cat si continue) care nu admit o valoare medie. Dac Z este o v.a. discret având tabelul de repartiµie (4.1), atunci media acestei v.a. (dac exist!) se dene³te prin: µ = z i p i. (4.4) Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se deneste prin E(U(Z)) = U(z i )p i. Dac Z este o v.a. de tip continuu, cu densitatea de repartiµie f(z), atunci media (teoretic ) acestei v.a., dac exist (!), se dene³te astfel: µ = zf(z)dz. (4.5) Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dac exist!) se deneste prin E(U(Z)) = U(z)f(z)dz. Notaµii: În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia µ Z. Pentru media teoretic a unei variabile aleatoare se mai folosesc ³i notaµiile: m, M(Z) sau E(Z). Dispersia (sau varianµa) (en., variance) ³i abaterea standard (en., standard deviation) Consideram Z o variabil aleatoare care admite medie nita µ. Dorim sa stim in ce masura valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z 0 = Z µ (numit abaterea lui Z
25 Geostatistica [Dr. Iulian Stoleriu] 24 de la media sa), atunci E(Z 0 ) = 0. A³adar, nu putem m sur gradul de împr ³tiere a valorilor lui Z în jurul mediei sale doar calculând Z µ. Avem nevoie de o alt m sur. Aceasta este dispersia variabilei aleatoare, notat prin σz 2 sau V ar(z). În cazul în care poate pericol de confuzie (spre exemplu, atunci când lucr m cu mai multe variabile în acela³i timp), vom folosi notaµia σz 2. σ 2 = (z i µ) 2 p i (in cazul unei v.a. discrete). σ 2 = (z µ) 2 f(z) dz (in cazul unei v.a. continue). Alte formule pentru dispersie: σ 2 = E[Z 2 ] µ 2 = zi 2 p i µ 2, în cazul discret z 2 f(z) dz µ 2, în cazul continuu Numim abatere standard (sau deviaµie standard) cantitatea σ = σ 2. Are avantajul ca unitatea sa de masura este aceeasi cu a variabilei Z. În conformitate cu teorema lui Cebâ³ev 5, pentru orice variabila aleatoare Z ce admite medie si orice a > 0, are loc inegalitatea: P ({ Z µ kσ}) 1 k 2. (4.6) În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat 1 k 2. În cazul particular k = 3, obµinem regula celor 3σ: P ({ Z µ 3σ}) sau P ({µ 3σ < Z < µ + 3σ}) 8 9, (4.7) semnicând c o mare parte din valorile posibile pentru Z se a în intervalul [µ 3σ, µ + 3σ]. Coecientul de variaµie Este denit prin CV = σ µ sau, sub forma de procente, CV = 100σ %. Este util in compararea variatiilor µ a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel cu media mai mare. Standardizarea unei variabile aleatoare Pentru o variabila aleatoare Z de medie µ ³i dispersie σ 2, variabila aleatoare Y = Z µ se nume³te σ variabila aleatoare standardizat (sau normat ). Astfel, prin standardizarea unei variabile, vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, D 2 (Y ) = 1. 5 Pafnuty Lvovich Chebyshev ( ), matematician rus
26 Geostatistica [Dr. Iulian Stoleriu] 25 Daca Z este o variabila normala (scriem asta prin Z N (m, σ)), atunci standardizarea sa este o variabila normala standard, adica Z µ σ N (0, 1). Momente centrate Pentru o v.a. Z (discret sau continu ), ce admite medie, momentele centrate sunt valorile a³teptate ale puterilor lui Z µ. Denim astfel µ k (Z) = E((Z µ) k ). In particular, µ k (Z) = (z i µ) k p i ; (in cazul unei v.a. discrete). µ k (Z) = (x µ) k f(x) dx; (in cazul unei v.a. continue). Momente speciale: µ 2 (Z) = σ 2. Se observa ca al doilea moment centrat este chiar dispersia. γ 1 = µ 3(Z) σ 3 este coecientul de asimetrie (en., skewness); Coecientul γ 1 este al treilea moment centrat standardizat. O repartiµie este simetric dac γ 1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac γ 1 > 0 ³i negativ (sau la stânga) dac γ 1 < 0. K = µ 4(Z) 3 este excesul (coecientul de aplatizare sau boltire) (en., kurtosis). Cuantile σ 4 Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul ( 3) apare pentru c indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentru K = 0, leptocurtic pentru K > 0 sau platocurtic pentru K < 0. Un indice K > 0 semnic faptul c, în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss. Fie o v.a. Z ce are funcµia de repartiµie F (z). Pentru un α (0, 1), denim cuantila de ordin α acea valoare reala z α R pentru care F (z α ) = P (Z z α ) = α. (4.8) (1) Cuantilele sunt m suri de poziµie, ce m soar locaµia unei anumite observaµii faµ de restul datelor. A³a cum se poate observa din Figura 4.1, valoarea x α este acel num r real pentru care aria ha³urat este chiar α. (2) În cazul în care Z este o variabil aleatoare discret, atunci (4.8) nu are soluµie pentru orice α. Îns, dac exist o soluµie a acestei ecuaµiei F (x) = α, atunci exist o innitate de soluµii, ³i anume intervalul ce separ dou valori posibile. Figura 4.1: Cuantila de ordin α.
27 Geostatistica [Dr. Iulian Stoleriu] 26 (3) Cazuri particulare de cuantile: pentru α = 1/2, obtinem mediana. Astfel, F (Me) = 0.5. Mediana (notata Me) este valoarea care imparte repartitia in doua parti in care variabila Z ia valori cu probabilitati egale. Scriem asta astfel: P (Z Me) = P (Z > Me) = 0.5. Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media pentru tendinta centrala a valorilor variabilei. pentru α = i/4, i {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q 1, este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este Scriem asta astfel: P (Z Q 1 ) = Cuartila a doua este chiar mediana, deci Q 2 = Me. Cuartila a treia, Q 3, este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este Scriem asta astfel: P (Z Q 3 ) = pentru α = j/10, j {1, 2,..., 10}, obtinem decilele. Prima decila este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.1. S.a.m.d. pentru α = j/100, j {1, 2,..., 100}, obtinem centilele. Prima centila este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este S.a.m.d. (4) Dac Z N (0, 1), atunci cuantilele de ordin α le vom nota prin z α. Modul (valoarea cea mai probabil ) Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea valoare x pentru care f(x ) (densitatea de repartiµie sau funcµia de probabilitate) este maxim. O repartiµie poate s nu aib niciun mod, sau poate avea mai multe module. Covarianµa ³i coecientul de corelaµie Conceptul de corelaµie (sau covarianµ ) este legat de modul în care dou variabile aleatoare tind s se modice una faµ de cealalt ; ele se pot modica e în aceea³i direcµie (caz în care vom spune c Z 1 ³i Z 2 sunt direct <sau pozitiv> corelate) sau în direcµii opuse (Z 1 ³i Z 2 sunt invers <sau negativ> corelate). Consideram variabilele Z 1, Z 2 ce admit mediile, respectiv, µ 1, µ 2. Denim corelaµia (sau covarianµa) variabilelor Z 1 ³i Z 2, notat prin cov(z 1, Z 2 ), cantitatea cov(z 1, Z 2 ) = E[(Z 1 µ 1 )(Z 2 µ 2 )]. Daca Z 1 si Z 2 coincid, sa spunem ca Z 1 = Z 2 = Z, atunci cov(z, Z) = σ 2 Z. O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozitiv, însemnând c Z 1 ³i Z 2 cresc sau descresc împreun (vezi cazurile in care ρ = 0.85 sau ρ = 1 in Figura 4.2), sau o corelaµie negativ, însemnând c Z 1 ³i Z 2 se modic în direcµii opuse (vezi cazul ρ = 0.98 in Figura 4.2). In cazul ρ = 0.16 din Figura 4.2, nu se observa nicio tendinta, caz in car putem banui ca variabilele nu sunt corelate.
28 Geostatistica [Dr. Iulian Stoleriu] 27 O m sur a corelaµiei dintre dou variabile este coecientul de corelaµie. Acesta este foarte utilizat în ³tiinµe ca ind o m sur a dependenµei liniare între dou variabile. Se nume³te coecient de corelaµie al v.a. Z 1 ³i Z 2 cantitatea ρ = cov(z 1, Z 2 ) σ 1 σ 2, unde σ 1 si σ 2 sunt deviatiile standard pentru Z 1, respectiv, Z 2. Uneori se mai noteaza prin ρ(z 1, Z 2 ) sau ρ Z1, Z 2. Coecientul de corelatie ia valori intre 1 (perfect negativ corelate) si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile. Figura 4.2: Reprezentare de date bidimensionale. 4.4 Independenµa Conceptul de independenµ a variabilelor aleatoare sau a evenimentelor este foarte important din punctul de vedere al calculului statistic, atunci cand avem de calculat probabilit µile evenimentelor compuse din evenimente mai simple. Consideram A si B dou evenimente aleatoare arbitrare. (1) Dac anumite informaµii despre evenimentul B au inuenµat în vreun fel realizarea evenimentului A, atunci vom spune c A ³i B sunt evenimente dependente. De exemplu, evenimentele A = mâine plou ³i B = mâine mergem la plaj sunt dependente. (2) S presupunem c evenimentul B satisface relaµia P (B) > 0. Vom spune c evenimentele A ³i B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B, adic probabilitatea condiµionat P (A B) = P (A), (4.9) echivalent cu P (A B) = P (A). P (B) Aici am notat prin P (A B) probabilitatea ca evenimentul A sa se realizeze stiind ca B s-a realizat. Putem rescrie ultima egalitate sub forma simetric : P (A B) = P (A) P (B). (4.10) Deoarece în relaµia (4.10) nu mai este nevoie de condiµie suplimentara pentru P (B), este preferabil s denim independenµ a dou evenimente arbitrare astfel: Dou evenimente A si B se numesc independente dac relaµia (4.10) are loc. Altfel, ele sunt dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte. In general, o multime de evenimente se numesc independente daca oricum am alege evenimente din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul probabilitatilor ecarui eveniment in parte. Doua variabile aleatoare Z 1 si Z 2 sunt independente daca realizarile lor sunt evenimente independente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
29 Geostatistica [Dr. Iulian Stoleriu] 28 Exemplu: S consider m aruncarea unui zar. Arunc m zarul de dou ori ³i not m cu Z 1, respectiv, Z 2, v.a. ce reprezint num rul de puncte ap rute la ecare aruncare. Evident, valorile acestor v.a. sunt din mulµimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea celui de-al doilea. O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma dispersiilor ecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de independenta nu este vericata. De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica cov(z 1, Z 2 ) = 0 si, implicit, ρ Z1, Z 2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna ca exista variabile care sunt necorelate dar nu sunt independente. Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate. 4.5 Teorema limita centrala Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite s aproxim m sume de variabile aleatoare identic repartizate, avînd orice tip de repartiµii (atât timp cât variaµia lor e nit ), cu o variabila aleatoare normal. Presupunem ca in urma unor masuratori am obtinut datele z 1, z 2,..., z n si ca aceste date sunt realizarile unor variabile Z 1, Z 2,..., Z n. Daca aceste variabile sunt normale, atunci suma acestora (S n = Z i ) cat si media lor (Z = 1 n Z i ) sunt tot variabile normale, pentru orice volum al selectiei, n. Teorema limita centrala spune ca, dac variabilele Z 1, Z 2,..., Z n nu sunt normal repartizate, atunci, pentru un volum n este sucient de mare, repartitiile pentru S n si Z tind sa e tot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru S n si Z sunt normale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala. Mai mult, daca variabilele Z i au aceeasi medie (µ) si aceeasi deviatie standard σ, atunci media Z este o variabila normala de medie µ Z = µ si deviatie standard σ Z = σ. Se observa ca, daca n este foarte n mare, atunci deviatia standard a lui Z scade, astfel ca valorile sale vor deveni foarte apropiate de µ. Se pune problema: Cât de mare ar trebui s e n, în practic, pentru c teorema limit central s e aplicabil? Se pare ca un num r n astfel încât n 30 ar sucicient pentru aproximarea cu repartiµia normal de³i, dac variabilele sunt simetrice, aproximarea ar putea bun ³i pentru un num r n mai mic de 30.
30 Geostatistica [Dr. Iulian Stoleriu] Repartitii probabilistice Repartiµia binomial, B(n, p): Este o repartitie pentru o variabila aleatoare discreta. Modeleaza numarul de succese obtinute in urma unui experiment aleator care se desfasoara in aceleasi conditii de un numar de ori. Fie n numarul de repetitii ale experimentului si e p probabilitatea de succes la o singura efectuare a experimentului. Spunem ca o variabila aleatoare Z urmeaza repartitia binomiala de parametri n si p, scriem Z B(n, p), (n > 0, p (0, 1)), dac valorile lui Z sunt {0, 1,..., n}, cu probabilit µile P (Z = k) = C k np k (1 p) n k, k = 0, 1,..., n. Media ³i dispersia pentru o astfel de variabila binomiala sunt: µ Z = np; σz 2 = np(1 p). Spre exemplu, aruncarea de 15 ori a unei monede ideale poate modelat ca ind o v.a. binomial B(15, 0.5). Repartiµia normal, N (µ, σ) Repartitia normala este cea mai cunoscuta si des utilizata repartitie probabilistica. Spunem c o variabila aleatoare urmeaza o repartitie normala de medie µ si deviatie standard σ (vom scrie Z N (µ, σ), dac Z are densitatea de repartitie f(z) = 1 (z µ) 2 σ 2π e 2σ 2, z R. Media variabilei Z este E(Z) = µ ³i dispersia sa este σ 2 Z = σ2. Repartitia normala se mai nume³te ³i repartiµia gaussian, dupa numele matematicianului german C. F. Gauÿ. În cazul µ = 0, σ 2 = 1 densitatea de repartiµie devine: f(z) = 1 2π e z2 2, x R. (4.11) În acest caz spunem c Z urmeaz repartiµia normal standard, N (0, 1). Gracul densit µii de repartiµie pentru repartiµia normal este clopotul lui Gauss (vezi Figura 4.3). Din grac (pentru σ = 1), se observ c majoritatea valorilor nenule ale repartiµiei normale standard se a în intervalul (µ 3σ, µ + 3σ) = ( 3, 3). Aceast armaµie rezulta din relaµia (4.7). Dac Z N (0, 1), atunci Z = σz + µ N (µ, σ). În mod similar, dac Z N (µ, σ), atunci Z = Z µ σ N (0, 1). Pentru o v.a. N (0, 1) funcµia de repartiµie este tabelat (valorile ei se g sesc în tabele) ³i are o notaµie special, Θ(z). Ea e denit prin: Θ(z) = 1 2π z e y2 2 dy. (4.12) Figura 4.3: Clopotul lui Gauss pentru o variabila Z N (0, σ), (σ = 1, 2, 3) Funcµia de repartiµie a lui Z N (µ, σ) este dat prin ( ) z µ F (z) = Θ, z R. (4.13) σ
31 Geostatistica [Dr. Iulian Stoleriu] 30 Repartiµia log-normal, logn (µ, σ) Repartiµia log-normal este foarte util în practica atunci cand observatiile nu sunt normale. In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala. In general, daca datele observate sunt asimetrice (coecientul skewness este mare), atunci este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem Z logn (µ, σ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z N (µ, σ). Densitatea de repartiµie pentru o repartitie lognormala de parametri µ si σ este: (ln z µ) 2 1 f(z) = zσ 2π e 2σ 2, dac z > 0; 0, dac z 0. Media ³i dispersia pentru o variabila Z logn (µ, σ) sunt date de Repartiµia χ 2, χ 2 (n) µ Z = e µ+σ2 /2, σ 2 Z = e 2µ+σ2 (e σ2 1). Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n) (scriem ca Z χ 2 (n) si se cite³te repartiµia hi-p trat cu n grade de libertate) dac densitatea sa de repartiµie este: 1 f(z; n) = Γ( n 2 )2 z n n 2 1 e z 2, dac z > 0, 2 0, dac z 0. unde Γ este funcµia lui Euler. Gracul acestei repartiµii (pentru diverse valori ale lui n) este reprezentat în Figura 4.4. (a) Media ³i dispersia unei repartitii χ 2 (n) sunt: E(χ 2 ) = n, D 2 (χ 2 ) = 2n. (b) Dac variabilele Z k N (0, 1) pentru k = 1, 2,..., n sunt independente, atunci Z Z Z 2 n χ 2 (n). (c) În particular, dac variabila Z este normala standard, atunci patratul acesteia este o variabila χ 2 (1). Matematic, scriem astfel: Figura 4.4: Repartiµia χ 2 (n) pentru patru valori ale lui n. Daca Z N (0, 1), atunci Z 2 χ 2 (1).
32 Geostatistica [Dr. Iulian Stoleriu] 31 Repartiµia Student (W. S. Gosset 6 ), t(n) Spunem c Z t(n) (cu n grade de libertate) dac densitatea de repartiµie este: ( ) n + 1 Γ ) n+1 2 f(z; n) = ( n ) (1 + z2 2, z R. nπ Γ n 2 Media ³i dispersia unei repartitii t(n) sunt: µ Z = 0, σ 2 Z = Repartiµia Fisher 7, F(m, n) n n 2. Spunem c Z F(m, n) (cu m, n grade de libertate) dac densitatea de repartiµie este: ( m ) m ( ) 2 m + n Γ n ( 2 f(z) = m ) ( n ) z m 2 1 ( 1 + m n Γ Γ z) m+n 2, z > 0; 2 2 0, z 0. Media ³i dispersia unei repartitii F(m, n) sunt: µ Z = n n 2, σ2 Z = 2n2 (n + m 2) m(n 2) 2 (n 4). 6 William Sealy Gosset ( ), statistician britanic, care a publicat sub pseudonimul Student 7 Sir Ronald Aylmer Fisher ( ), statistician, eugenist, biolog ³i genetician britanic
33 Geostatistica [Dr. Iulian Stoleriu] 32 5 Elemente de Statistic descriptiv S consider m o populaµie statistic de volum N ³i o caracteristic a sa, Z, ce are funcµia de repartiµie F. Asupra acestei caracteristici facem n observaµii, în urma c rora obµinem un set de date statistice. Dup cum am v zut anterior, datele statistice pot prezentate într-o form grupat (descrise prin tabele de frecvenµe) sau pot negrupate, exact a³a cum au fost culese în urma observ rilor. Pentru analiza acestora, pot utilizate diverse tehnici de organizare ³i reprezentare grac a datelor statistice îns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesaµi în a atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de valori numerice, e.g., m suri ale tendinµei centrale (media, modul, mediana), m suri ale dispersiei (dispersia, deviaµia standard), m suri de poziµie (cuantile, distanµa intercuantilic ) etc. În acest capitol, vom introduce diverse m suri descriptive numerice, atât pentru datele grupate, cât ³i pentru cele negrupate. 5.1 M suri descriptive ale datelor negrupate Consider m un set de date statistice negrupate, z 1, z 2,..., z n (z i R, i = 1, 2..., n, n N), ce corespund unor observaµii f cute asupra variabilei Z. Pe baza acestor observatii, denim urm torii indici statistici, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Printr-un estimator pentru un parametru al populatiei intelegem o statistica alecarei valori se apropie foarte mult de valoarea parametrului atunci cand volumul selectiei este sucient de mare. Deoarece ele se bazeaza doar pe observatiile culese, acesti indici statistici se mai numesc si masuri empirice. Valoarea medie Este o m sur a tendinµei centrale a datelor. Pentru o selecµie {z 1, z 2,..., z n }, denim: z = 1 z i, n ca ind media datelor observate. Aceasta medie empirica este un estimator pentru media teoretica, µ = EZ, daca aceasta exista. Pentru ecare i, cantitatea d i = z i z se nume³te deviaµia valorii z i de la medie. Aceasta nu poate denit ca o m sur a gradului de împr ³tiere a datelor, deoarece (z i z) = 0. Momentele Pentru ecare k N, momentele centrate de ordin k se denesc astfel: m k = 1 (z i z) k. n Dispersia Aceasta este o m sur a gradului de împr ³tiere a datelor în jurul valorii medii. Este un estimator pentru dispersia populatiei. Pentru o selecµie {z 1, z 2,..., z n }, denim dispersia astfel: ( ) s 2 = m 2 = 1 (z i z) 2 = 1 n 1 n 1 [ zi 2 n(z) 2 ].
34 Geostatistica [Dr. Iulian Stoleriu] 33 Faptul ca apare n 1 la numitor face ca aceasta masura empirica sa estimeze dispersia teoretica fara deplasare, in sensul ca valoarea medie a lui s 2 este chiar σ 2. Acest fapt nu ar mai fost valabil daca in loc de n 1 ar fost n. Deviaµia standard Este tot o m sur a împr ³tierii datelor în jurul valorii medii, care estimeaza parametrul σ. Pentru o selecµie {z 1, z 2,..., z n }, denim deviaµia standard: s = 1 (z i z) n 1 2. Coecientul de variaµie (sau de dispersie) Aceste coecient (de obicei, exprimat în procente) este util atunci când compar m dou repartiµii având unit µi de m sur diferite. Nu este folosit atunci când z sau µ este foarte mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor este mai mare pentru populatie ce are media mai mica. cv = s z. Amplitudinea (plaja de valori, range) Pentru un set de date, amplitudinea (en., range) este denit ca ind diferenµa dintre valoarea cea mai mare ³i valoarea cea mai mic a datelor, i.e., a = z max z min. Scorul ζ Este num rul deviaµiilor standard pe care o anumit observaµie, z, le are sub sau deasupra mediei. Pentru o selecµie {z 1, z 2,..., z n }, scorul Z este denit astfel: Corelaµia (covarianµa) ζ = z z. s Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z 1 ³i Z 2, pentru care avem n perechi de observaµii, (z 1, z 1 ), (z 2, z 2 ),..., (z n, z n). Denim corelaµia (covarianµa): cov e = 1 n 1 (z i z)(z i z ). (5.1) In cazul în care lucr m cu mai multe variabile ³i pot exista confuzii, vom nota covarianµa prin cov e (Z 1, Z 2 ). Daca Z 1 si Z 2 coincid, sa spunem ca Z 1 = Z 2 = Z, atunci cov e (Z, Z) = s 2. O relaµie liniar între dou variabile este acea relaµie ce poate reprezentat cel mai bine printr-o linie. Corelaµia detecteaz doar dependenµe liniare între dou variabile aleatoare. Putem avea o corelaµie pozitiv, însemnând c Z 1 ³i Z 2 cresc sau descresc împreun (pentru cov e > 0), sau o corelaµie negativ, însemnând c Z 1 ³i Z 2 se modic în direcµii opuse (pentru cov e < 0). În cazul în care cov e = 0, putem banui ca variabilele nu sunt corelate. Coecientul de corelaµie r = cov e s x s y. In cazul în care lucr m cu mai multe variabile ³i pot exista confuzii, vom nota coecientul de corelaµie prin r(z 1, Z 2 ). La fel ca în cazul coecientulul de corelaµie teoretic, r ia valori între 1 ³i 1. Dup cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea real aparametrului ρ (coecientul teoretic de corelaµie, care reprezint întreaga populaµie).
35 Geostatistica [Dr. Iulian Stoleriu] 34 Funcµia de repartiµie empiric Se nume³te funcµie de repartiµie empiric asociat unei variabile aleatoare Z ³i unei selecµii {z 1, z 2,..., z n }, funcµia F n : R [0, 1], denit prin F n(z) = num rul observaµiilor mai mici au egale cu z. (5.2) n Când volumul selectiei (n) este sucient de mare, funcµia de repartiµie empiric (F n(z)) aproximeaz funcµia de repartiµie teoretic F (z) (vezi Figura 5.1). Insa, pentru a stabili exact daca ele sunt semnicativ apropiate, este nevoie de un test statistic. Figura 5.1: Funcµia de repartiµie empiric ³i funcµia de repartiµie teoretic pentru distribuµia normal. Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se dene³te prin g 1 = µ 3 s 3 = [ 1 n 1 n 1 (z i z) 3 ] 3/2. (z i z) 2 Putem spera ca o repartiµie s e simetric dac g 1 este foarte apropiat de valoarea 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac g 1 > 0 ³i negativ (sau la stânga) dac g 1 < 0. Coecientul empiric de asimetrie g 1 va utilizat în estimarea coecientului teoretic de asimetrie γ 1, care este un parametru al populaµiei. Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se dene³te prin κ = µ 4 s 4 3 = ( 1 n 1 n (z i z) 4 ) 2 3. (z i z) 2
36 Geostatistica [Dr. Iulian Stoleriu] 35 Este o m sur a boltirii distribuµiei (al patrulea moment standardizat). Termenul ( 3) apare pentru c indicele kurtosis al distribuµiei normale s e egal cu 0. Vom avea o repartiµie mezocurtic pentru κ = 0 (sau foarte apropiat de aceast valoare), leptocurtic (boltit ) pentru κ > 0 sau platocurtic pentru κ < 0. Un indice κ > 0 semnic faptul c, în vecin tatea modului, curba densit µii de repartiµie are o boltire (ascuµire) mai mare decât clopotul lui Gauss. Pentru κ < 0, în acea vecin tate curba densit µii de repartiµie este mai plat decât curba lui Gauss. Coecientul empiric de aplatizare κ va utilizat în estimarea coecientului teoretic de aplatizare K, care este un parametru al populaµiei. Cuantile Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separ repartiµia ordonat în r p rµi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii corespunzatori. Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se nume³te median (empirica), notat prin me. Presupunem c observaµiile sunt ordonate, z 1 < z 2 < < z n. Pentru aceast ordine, denim valoarea median : { z me = (n+1)/2, dac n = impar; (z n/2 + z n/2+1 )/2, dac n = par. Pentru r = 4, cuantilele se numesc cuartile (sunt în num r de 3). Prima cuartil, notat q 1, se nume³te cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat prin q 3, se nume³te cuartila superioar. Diferenµa q 3 q 1 se nume³te distanµa intercuartilic. Pentru r = 10 se numesc decile (sunt în num r de 9), pentru r = 100 se numesc percentile (sunt în num r de 99), pentru r = 1000 se numesc permile (sunt în num r de 999). Sunt m suri de poziµie, ce m soar locaµia unei anumite observaµii faµ de restul datelor. Modul Modul (sau valoarea modal ) este acea valoare z din setul de date care apare cel mai des (adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dac apar dou astfel de valori, atunci vom spune c setul de date este bimodal, pentru trei astfel de valori avem un set de date trimodal etc. În cazul în care toate valorile au aceea³i frecvenµ de apariµie, atunci spunem c nu exist mod. De exemplu, setul de date nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date. Valori aberante (en. outliers) Dupa cum am vazut anterior, teorema lui Cebâ³ev ne asigura ca probabilitatea ca o data observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat 1. Valorile aberante k 2 sunt valori statistice observate care sunt îndep rtate de marea majoritate a celorlalte observaµii. Ele pot ap rea din cauza unor m sur tori defectuoase sau în urma unor erori de m surare. De cele mai multe ori, ele vor excluse din analiza statistic. Din punct de vedere matematic, valorile aberante sunt valorile ce nu aparµin intervalului urm tor: [q iqr, q iqr], unde iqr = q 3 q 1 este distanµa intercuartilic. Daca valoarea 1.5 se inlocuieste cu 3, atunci orice valoare care iese din acest interval se va numi valoare aberanta extrema.
37 Geostatistica [Dr. Iulian Stoleriu] 36 Sinteza prin cele cinci valori statistice (ve number summary) Reprezint cinci m suri statistice empirice caracteristice unui set de date statistice. Acestea sunt: valoarea minim < prima cuartil (q 1 ) < mediana (me) < a treia cuartil (q 3 ) < valoarea maxim Aceste cinci numere pot reprezentate grac într-o diagram numit box-and-whisker plot. Datele din Tabelul 2.4 sunt reprezentate în prima gur de mai jos prin dou diagrame box-and-whiskers. În prima diagram (numerotat cu 1) am folosit datele negrupate; în a doua diagram am folosit reprezentarea datelor din acela³i tabel prin centrele claselor. Reprezent rile sunt cele clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-whisker plot. vârsta f. abs. f. rel. f. cum. mijlocul clasei [18, 25) % 8.83% 21.5 [25, 35) % 28.57% 30 [35, 45) % 60.78% 40 [45, 55) % 83.38% 50 [55, 65) % % 60 Total % - - Tabela 5.1: Tabel cu frecvenµe. Figura 5.2: Box-an-whisker plot pentru datele din Tabelul 5.1 În Figura 5.3, am reprezentat cu box-and-whisker un set de date discrete ce conµine dou valori aberante. Aici dreptunghiul a fost crestat (notched box-and whisker plot); lungimea crest turii oferind un interval de încredere pentru median. Valorile aberante sunt reprezentate in gura prin puncte in afara range-ului datelor. Figura 5.3: Box-an-whisker plot pentru un set de date discrete
38 Geostatistica [Dr. Iulian Stoleriu] 37 Tabelul 5.2 contine cativa parametri uzuali ce caracterizeaza o populatie, alaturi de estimatorii corespunzatori. parametru indicator statistic (estimator) caracterizeaza populatia format cu date de selectie µ media m σ 2 dispersia s 2 σ deviatia standard s CV coef. de variatie cv cov covarianta cov e ρ corelatia r γ 1 skewness g 1 K kurtosis κ Q i cuantile q i Me mediana me F (z) fct. de repartitie Fn(z) Tabela 5.2: Tabel cu parametri si estimatorii sai Exerciµiu 5.1 Urm torul set de date reprezint preµurile (în mii de euro) a 20 de case, vândute într-o anumit regiune a unui ora³: (a) Determinaµi amplitudinea, media, mediana, modul, deviatia standard, cuartilele ³i distanµa intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ? (b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante? (c) Calculaµi coecientii de asimetrie si de aplatizare. Soluµie: Rearanj m datele în ordine cresc toare: Amplitudinea datelor este = 475, media lor este , mediana este = , modul este 100, cuartila inferioar este q 1 = = 84, q 2 = me, cuartila superioar este q 3 = = 140 ³i distanµa intercuartilic este d = q 3 q 1 = Mediana este valoarea cea mai reprezentativ în acest caz, deoarece cele mai mari trei preµuri, anume 340.5, 475.5, 525, m resc media ³i o fac mai puµin reprezentativ pentru celelalte date. În cazul în care setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. Deviatia standard este s = 1 (z i z) n 1 2 = Folosind formulele, gasim ca g 1 = (asimetrie la dreapta) si κ = (boltire pronuntata). Valorile aberante sunt cele ce se aa in afara intervalului [q 1 1.5(q 3 q 1 ), q (q 3 q 1 )] = [0, 178]. Se observa ca valorile {340.5, 475.5, 525} sunt valori aberante, reprezentate prin puncte in gura alaturata. Figura 5.4: Box-an-whisker plot pentru datele din Exerciµiul 5.1
39 Geostatistica [Dr. Iulian Stoleriu] M suri descriptive ale datelor grupate Consider m un set de date statistice grupate (de volum n), ce reprezinta observaµii asupra variabilei Z. Pentru o selecµie cu valorile de mijloc {z 1, z 2,..., z r } ³i frecvenµele absolute corespunz toare, {f 1, f 2, r..., f r }, cu f i = n, denim: z f = 1 n s 2 = 1 n 1 r z i f i, media (empiric ) de selecµie, (sau, media ponderat ) r ( r ) f i (z i z f ) 2 = 1 zi 2 f i n z 2 f, dispersia empiric, n 1 s = s 2, deviaµia empiric standard. Mediana pentru un set de date grupate este acea valoare ce separ toate datele în dou p rµi egale. Se determin mai întâi clasa ce conµine mediana (numit clas median ), apoi presupunem c în interiorul ec rei clase datele sunt uniform distribuite. O formul dup care se calculeaz mediana este: me = l + n 2 F me f me c, unde: l este limita inferioar a clasei mediane, n este volumul selecµiei, F me este suma frecvenµelor pân la (exclusiv) clasa median, f me este frecvenµa clasei mediane ³i c este l µimea clasei. Similar, formulele pentru cuartile sunt: q 1 = l 1 + n 4 F q 1 f q1 c ³i q 3 = l 3 + 3n 4 F q 3 f q3, unde l 1 si l 3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar F q este suma frecvenµelor pân la (exclusiv) clasa ce contine cuartila, f q este frecvenµa clasei unde se gaseste cuartila. Pentru a aa modul unui set de date grupate, determin m mai întâi clasa ce conµine aceast valoare (clas modal ), iar modul va calculat dup formula: mod = l + d 1 d 1 + d 2 c, unde d 1 ³i d 2 sunt frecvenµa clasei modale minus frecvenµa clasei anterioare ³i, respectiv, frecvenµa clasei modale minus frecvenµa clasei posterioare, l este limita inferioar a clasei modale ³i c este l µimea clasei modale. Exerciµiu 5.2 Datele din Tabelul 5.3 reprezinta inaltimile (in cm) pentru o selectie de 70 de plante dintro anumita regiune. (a) Reprezentati datele printr-o histograma. (b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaµi amplitudinea, media, mediana, modul, dispersia si distanta intercuartilic. (b) Desenaµi diagrama box-and-whiskers ³i comentaµi-o. Exista valori aberante? Soluµie: Amplitudinea este A = 30. Folosind centrele claselor, media este z = ( ) =
40 Geostatistica [Dr. Iulian Stoleriu] 39 Dispersia este: s 2 1 = n 1 ( (z 2 f) n z 2 ) = 1 69 ( ) = În lµimea (în cm) frecvenµa [0, 3) 5 [3, 6) 9 [6, 9) 8 [9, 12) 14 [12, 15) 15 [15, 18) 19 [18, 21) 15 [21, 24) 8 [24, 27) 4 [27, 30) 3 Tabela 5.3: Tabel cu date de tip continuu Figura 5.5: Histograma pentru datele din Tabelul 5.3. Clasa median este clasa [12, 15), deoarece în clasele anterioare ([0, 3), [3, 6) ³i [6, 9)) se a = 36 date mai mici decât mediana, iar la dreapta clasei [12, 15) se aa = 49 de date. Valoarea median este Me = = Clasa modal este [15, 18), iar modul este Mo = = Calcul m acum prima cuartil dupa formula q 1 = l 1 + n 4 F q 1. Clasa in care se gaseste prima cuartila este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile observate). Avem: F q1 = 22, f q1 = 14, c = 3, de unde q 1 = Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea la dreapta sa 100/4 = 25 dintre valori. Avem: F q3 = 70, f q3 = 15, c = 3, de unde q 3 = 19. Astfel, distanta intercuartilica observata este iqr = q 3 q 1 = Tabelul 5.4 reprezinta o sumarizare a statisticilor importante pentru aceste date: Statistica valoarea parametrul estimat Minimum 0.5 z min Maximum 29.5 z max Media µ Mediana 14.8 M e Deviatia standard σ Dispersia σ 2 Skewness γ 1 Kurtosis K Numarul de observatii 100 n χ 2 pentru testul de normalitate (cu 7 grade de libertate) f q1 Tabela 5.4: Statistici pentru datele din Tabelul 5.3
41 Geostatistica [Dr. Iulian Stoleriu] 40 Valorile aberante sunt cele ce se aa in afara intervalului [q 1 1.5(q 3 q 1 ), q (q 3 q 1 )] = [ , ]. Cum toate datele din tabel apartin acestui interval, nu exista valori aberante, fapt care se observa si din Figura 5.6. Figura 5.6: Box-an-whisker plot pentru datele din Tabelul Transformari de date Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate (folosind functiile ln sau log 10, daca valorile sunt toate pozitive), radacina patrata a valorilor, transformarea logit, radacini de ordin superior etc. In Tabelul 5.5 am sugerat tipul de transformare ce poate utilizat in functie de coecientul de skewness γ 1. In ce conditii... skewness formula date aproape simetrice 0.5 < γ 1 < 0.5 nicio transformare skewness moderat pozitiv, date nenegative 0.5 γ 1 < 1 y i = z i skewness moderat pozitiv, exista date < γ 1 < 1 y i = z i + C skewness moderat negativ 1 < γ y i = C z i skewness mare negativ γ 1 1 y i = ln(c z i ) sau y i = log 10 (C z i ) skewness mare pozitiv, date pozitive γ 1 1 y i = ln z i sau y i = log 10 z i skewness mare pozitiv, exista date 0 γ 1 1 y i = ln(z i + C) sau y i = log 10 (z i + C) Tabela 5.5: Exemple de transformari de date statistice 5.3 unde C > 0 este o constanta ce poate determinata astfel incat datele transformate sa aiba un skewness cat mai aproape de 0. Aceasta constanta va aleasa astfel incat functia ce face transformarea este denita. De exemplu, presupunem ca datele observate sunt z 1, z 2,..., z n si acestea nu sunt toate pozitive, cu un coecient de asimetrie (skewness) γ 1 = Ne uitam la valoarea minima a datelor; aceasta este z min = Pentru a obtine un set de valori pozitive, vom adauga valoarea 1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate sunt echivalente cu folosirea directa a formulei ln(1 + z i ) (adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y 1, y 2,..., y n, unde y i = ln(1 + z i ). Un exemplu este cel din Figura 5.7. Se observa ca datele logaritmate sunt aproape normale. O analiza statistica poate condusa pentru datele y i, urmand ca, eventual, la nal sa aplicam transformarea inversa z i = e y i 1 pentru a transforma rezultatele pentru datele initiale.
42 Geostatistica [Dr. Iulian Stoleriu] 41 Figura 5.7: Datele intiale si datele logaritmate Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a determina proprietatile datelor originale. De aceea, ar potrivit de a exprima indicatorii statistici atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul 5.6. Indicatorul datele originale datele tranformate z i y i = ln(1 + z i ) Minimum Maximum Media Cuartila Q Mediana Cuartila Q Deviatia standard Dispersia Skewness Kurtosis Numarul de observatii χ 2 pentru testul de normalitate (cu 7 grade de libertate) Tabela 5.6: Indicatori pentru datele originale si pentru datele transformate 5.3
43 Geostatistica [Dr. Iulian Stoleriu] 42 6 Estimatori Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor masuratori, am obtinut rezultatele z 1, z 2,..., z n. Deoarece in urma acestor masuratori pot aparea erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z 1, Z 2,..., Z n. Se presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie. Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media µ sau deviatia standard σ ale lui Z. O functie f(z 1, Z 2,..., Z n ) ce depinde de variabilele de selectie se va numi generic statistic. In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f(z 1, z 2,..., z n ), se numeste tot statistic. Exemple de statistici: 1. Media selectiei: Z = 1 n Z i. O valoare observata pentru Z este z = 1 z i. n ( ) Daca variabilele de selectie Z i au media µ si deviatia standard σ, atunci media mediei selectiei este tot µ si deviatia sa standard este σ n. Scriem asta astfel: µ Z = µ si σ Z = σ n. ( ) In cazul in care variabilele Z i sunt normale N (m, σ), atunci media selectiei este tot o variabila σ normala, Z N (µ, n ). ( ) Daca numarul variabilelor de selectie este sucient de mare, atunci variabila Z este normala, fara ca Z i sa e neaparat normale. Acest fapt este o consecinta a teoremei limita centrala. 2. Dispersia selecµiei, S 2 = 1 n 1 O valoare observata pentru S 2 este s 2 = 1 n 1 [Z i Z] 2 [z i z] Deviatia standard a selecµiei, S = S 2. O valoare observata pentru S este s = s Estimatori punctuali Consideram acum un parametru generic al populatiei, notat cu θ, pe care dorim sa-l estimam. Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica (independenta de θ) care se apropie de θ atunci cand volumul selectiei este sucient de mare. Un estimator pentru parametrul θ este notat simbolic prin θ. Valoarea unui astfel de estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este pericol de confuzie, vom nota estimatorul si estimatia tot cu θ. De remarcat faptul ca estimatorul este o variabila aleatoare si estimatia este un numar real.
44 Geostatistica [Dr. Iulian Stoleriu] 43 Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot exacte. Apar astfel erori de aproximare. Ne-am dori s ³tim în ce sens ³i cât de bine un estimator aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati care sa cuantice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea medie patratica si eroarea standard. Un estimator ˆθ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul θ dac media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic, scriem astfel: E(ˆθ) = θ. Altfel, spunem c ˆθ este un estimator deplasat pentru θ, iar deplasarea (distorsiunea) se dene³te prin: b(ˆθ, θ) = E(ˆθ) θ. Cantitatea b(ˆθ, θ) este o m sur a erorii pe care o facem în estimarea lui θ prin ˆθ. O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea standard (en., standard error), notata aici prin σ(ˆθ) sau σˆθ. Spre exemplu, daca estimatorul ˆθ este Z, atunci σ Z = σ n, unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σ Z va tinde la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor masuratori se apropie mult de valoarea parametrului µ. Numim eroare medie p tratic a unui estimator ˆθ pentru θ (en., mean squared error) cantitatea ( ] ) 2 MSE(ˆθ, θ) = E [ˆθ θ. Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia estimatorului, σ 2ˆθ. Un estimator nedeplasat ˆθ pentru θ se nume³te estimator nedeplasat uniform de dispersie minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ, notat cu ˆθ, estimatorul ˆθ are varianta minima. Matematic, scriem astfel: σ 2ˆθ σ 2ˆθ, pentru orice valoarea a lui θ. Pentru un anumit parametru pot exista mai mulµi estimatori nedeplasati. Dintre acestia, cel mai bun estimator va acela care are varianta minima. 6.2 Exemple de estimatori punctuali Presupunem ca Z este variabila de interes a unei populatii statistice, pentru care dorim sa estimam anumiti parametri, e.g., media µ, varianta (dispersia) σ 2, deviatia standard σ etc. Plecand de la o multime de valori observate pentru Z, si anume z 1, z 2,..., z n, putem construi urmatorii estimatori:
45 Geostatistica [Dr. Iulian Stoleriu] Un estimator pentru media µ este media selectiei Ẑ = Z = 1 n Z i. O estimatie pentru µ este ẑ. Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita regiune, vom stabili mai intai locatiile x 1, x 2,..., x n de unde vom culege probe, urmand ca apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel, ecare variabila Z i = Z(x i ) reprezinta concentratia in locatia x i, care este o variabila aleatoare. Valoarea masurata in aceasta locatie este z i = z(x i ). Estimatorul Z = 1 Z i este media concentratiilor din locatiile n stabilite (este criteriul dupa care se estimeaza media), iar estimatia z = 1 z i este valoarea medie n a concentratiilor masurate. 2. Dispersia selecµiei, S 2 = 1 n 1 [Z i Z] 2, este un estimator pentru dispersia teoretic, σ Deviatia standard a selectiei, S = S 2 este un estimator pentru deviatia standard teoretic, σ. 4. Un estimator pentru eroarea standard σ Z = σ este s n Z = s. n 5. Dispersia straticata In cazul unui camp aleator, exista cazuri in care estimatiile deviatiei standard s sunt foarte mari, fapt care duce la o eroare standard s mare. Acest lucru poate datorat faptului n ca unele regiuni din campul aleator sunt foarte slab reprezentate prin masuratori, pe cand altele contin prea multe masuratori. O idee pentru reducerea erorii este cresterea volumului observatiilor, n. Insa, de multe ori, acest lucru nu este convenient. Totusi, problema poate remediata daca se face o selectie straticata a locatiilor masuratorilor, dupa cum urmeaza. Sa presupunem ca regiunea R de interes este impartita in m subregiuni (numite straturi). Pentru ecare astfel de strat, k se vor face n k 2 masuratori. Pentru ecare strat in parte, putem calcula varianta masuratorilor prin formula: s 2 k = 1 n k 1 n k [z ik z k ] 2. O estimatie pentru varianta mediei in regiunea R este s 2 z = 1 k 2 m j=1 s 2 k n k. O estimatie pentru eroarea standard a lui z este s z = s 2 z. 6. Presupunem acum ca avem doua variabile de interes, Z si Z. Am vazut anterior ca legatura dintre aceste variabile poate descrisa de covarianta, cov(z, Z ) = E [(Z µ Z )(Z µ Z )]. Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaµii. Presupunem ca acestea sunt {(z 1, z 1 ), (z 2, z 2 ),..., (z n, z n)}. O estimatie pentru cov(z, Z ) este covarianta (sau corelatia) empirica, cov e = 1 (z i z)(z i z n 1 ), unde z = 1 n z i si z = 1 n z i.
46 Geostatistica [Dr. Iulian Stoleriu] Estimarea parametrilor prin intervale de încredere (o singur populaµie) Dup cum am v zut anterior, putem determina estimaµii punctuale pentru parametrii unei populatii îns, o estimaµie punctual, nu precizeaz cât de aproape se g se³te estimaµia ˆθ(x 1, x 2,..., x n ) faµ de valoarea real a parametrului θ. De exemplu, dac dorim s estim m valoarea medie a ph din sol, atunci putem g si un estimator punctual (e.g., media de selecµie) care s ne indice c aceasta este de 8.1. Ideal ar dac aceast informaµie ar prezentat sub forma: ph mediu din sol este 8 ± 0.2. Putem obµine astfel de informaµii dac vom construi un interval în care, cu o probabilitate destul de mare, s g sim valoarea real a lui θ. Dorim s determinam un interval (aleator) care s acopere cu o probabilitate mare (e.g., 0.95, 0.98, 0.99 etc) valoarea posibil a parametrului necunoscut. Pentru un α (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval de încredere (en., condence interval) pentru parametrul θ cu probabilitatea de încredere 1 α, un interval aleator (θ, θ), astfel încât P (θ < θ < θ) = 1 α, (6.1) unde θ(z 1, Z 2,..., Z n ) ³i θ(z 1, Z 2,..., Z n ) sunt statistici. Pentru o observaµie xat, capetele intervalului (aleator) de încredere vor statistici. De exemplu, pentru datele observate, z 1, z 2,..., z n, intervalul ( θ(z1, z 2,..., z n ), θ(z 1, z 2,..., z n ) ) se nume³te valoare a intervalului de încredere pentru θ. Pentru simplitate îns, vom folosi termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât ³i pentru valoarea acestuia, înµelesul desprinzându-se din context. Valoarea α se nume³te nivel de semnicaµie sau probabilitate de risc. Cu cât α este mai mic (de regul, α = 0.01 sau 0.02 sau 0.05), cu atât ³ansa (care este (1 α) 100%) ca valoarea real a parametrului θ s se g seasc în intervalul g sit este mai mare. Intervalul de încredere pentru valoarea real a unui parametru nu este unic. Dac ni se dau condiµii suplimentare (e.g., xarea unui cap t), atunci putem obµine intervale innite la un cap t ³i nite la cel lalt cap t. În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale. Vom nota cu (generic) prin x α cuantila de ordin α pentru repartitia variabilei Z. Cuantilele x α pot gasite in tabele specice repartitiei cautate, sau pot calculate folosind un soft specializat. Daca variabila Z urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le vom nota prin z α si le vom gasi in Tabelul Daca variabila Z urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom nota prin t α, n si le vom gasi in Tabelul Daca variabila Z urmeaza o repartitie χ 2 (n), atunci cuantilele corespunzatoare le vom nota prin χ 2 α, n si le vom gasi in Tabelul Intervale de încredere pentru medie Distingem aici doua cazuri: (1) cand volumul selectiei este sucient de mare (de multe ori, aceasta inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am vazut anterior,
47 Geostatistica [Dr. Iulian Stoleriu] 46 pentru estimarea punctuala a mediei pe baza unei selectii folosim: z = 1 n z i. (1) daca n 40, atunci un interval de incredere pentru medie la nivelul de semnicatie α este ( ) s s z z 1 α, z + z 2 1 α, (6.2) n 2 n unde z 1 α este cuantila de ordin 1 α 2 2 pentru repartitia N (0, 1). Spre exemplu, daca nivelul de semnicatie este α = 0.05, atunci din Tabelul 16.1 gasim ca z = (2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnicatie α este ( ) s s z t 1 α 2 ; n 1, z + t 1 α n 2 ; n 1. (6.3) n Aici, s este o estimatie pentru deviatia standard, s = 1 (z i z) 2 n 1 si t 1 α 2, n 1 este cuantila de ordin 1 α 2 pentru repartitia t(n 1). Spre exemplu, daca nivelul de semnicatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul 16.2 gasim ca t 0.975, 34 = Când volumul n este mare, atunci va o diferenµ foarte mic între valorile z 1 α ³i t 1 α 2 2 ; n 1, de aceea am putea folosi z 1 α în locul valorii t 1 α 2 2 ; n 1. Intervalele de încredere de mai sus sunt valide pentru selecµia (repetat sau nerepetat ) dintr-o populaµie innit, sau pentru selecµii repetate dintr-o populaµie nit. În cazul selecµiilor nerepetate din colectivit µi nite, în estimarea intervalelor de încredere vom µine cont ³i de volumul N al populaµiei. Spre exemplu, dac selecµia de volum n se face dintr-o populaµie nit de volum N ³i n 0.05N, atunci un inteval de încredere centrat pentru media populaµiei este: ( Factorul N n N 1 s N n z t 1 α 2 ; n 1 n N 1, z + t s N n 1 α 2 ; n 1 n N 1 ). (6.4) va aproximativ egal cu 1 atunci cand N este innit sau N n, obtinandu-se astfel intervalul (6.3). Formula (6.4) nu este practica in Geostatistica, deoarece un camp aleator are o multime innita de puncte, asadar selectia de masuratori se face dintr-o populatie de volum N =. O alta observatie este faptul ca este posibil ca σ sa e un parametru cunoscut pentru Z, caz in care pentru intervalul de incredere pentru medie se foloseste formula (6.2) cu σ inlocuindu-l pe s. Exemplu 6.1 O ma³in de îngheµat umple cupe cu îngheµat. Se dore³te ca îngheµat din cupe s aib masa de µ = 250g. Desigur, este practic imposibil s umplem ecare cup cu exact 250g de îngheµat. Presupunem c masa conµinutului din cup este o variabil aleatoare repartizat normal. Pentru a verica dac ma³ina este ajustat bine, se aleg la întâmplare 30 de înghetate ³i se cânt re³te conµinutul ec reia. Obµinem astfel o selecµie repetat, z 1, z 2,..., z 30 dup cum urmeaz :
48 Geostatistica [Dr. Iulian Stoleriu] Se cere s se g seasc un interval de încredere pentru µ, cu nivelul de incredere de Soluµie: Dup cum am v zut mai sus, un interval de încredere pentru µ este (deoarece N este necunoscut, il presupunem mult mai mare decat n): ( ) s s x t 1 α 2 ; n 1, x + t 1 α n 2 ; n 1. n Aici, nivelul de risc este α = 0.01, cuantila teoretica este t 1 α 2 ; n 1 = t 0.995, 29 = , media valorilor este z = si deviatia standard este s = Astfel, obµinem intervalul de încredere pentru µ: ( , ). 6.5 Interval de încredere pentru dispersie Dupa cum am vazut anterior, pentru estimarea punctual a lui σ 2 se foloseste s 2 = 1 n 1 [z i z] 2. Un interval pentru σ 2 la nivelul de semnicatie α este: ( ) (n 1) s 2 (n 1) s 2 χ 2, 1 α 2 ; n 1 χ 2. (6.5) α 2 ; n 1 Intervale de încredere pentru deviaµia standard se obµin prin extragerea r d cinii p trate din capetele de la intervalele de încredere pentru dispersie. Exemplu 6.2 G siµi un interval de încredere (cu α = 0.05) pentru deviaµia standard a conµinutului de nicotin pentru un anumit tip de µig ri, stiind ca pentru o selecµie de 25 de buc µi, deviaµia standard a conµinutului de nicotin este de 1.6mg. Soluµie: Observam ca s = 1.6mg. Din tabele, g sim ca: χ ; 24 = ; χ ; 24 = Intervalul de încredere pentru dispersie este: (σ 2, σ 2 ) = (1.5608, ). Pentru variaµia standard, intervalul de încredere este: ( mg, mg) = (1.25mg, 2.22mg).
49 Geostatistica [Dr. Iulian Stoleriu] Interval de încredere pentru proportie Pentru o populaµie statistic, prin proporµie a populaµiei vom înµelege procentul din întreaga colectivitate ce satisface o anumit proprietate (sau are o anumit caracteristic ) (e.g., proporµia de studenµi integrali³ti dintr-o anumit facultate). Pe de alt parte, prin proporµie de selecµie înµelegem procentajul din valorile de selecµie ce satisfac o anumit proprietate (e.g., proporµia de studenµi integrali³ti dintr-o selecµie aleatoare de 40 de studenµi ai unei facult µi). Proporµia unei populaµii este un parametru (pe care îl vom nota cu p), iar proporµia de selecµie este o statistic (pe care o not m aici prin p). Fie Z o caracteristic binomial a unei colectivit µi, cu probabilitatea de succes p (e.g., num rul de steme ap rute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim s construim un interval de încredere pentru proporµia populaµiei, p. Pentru aceasta, avem nevoie de selecµii de volum mare din aceast colectivitate. Un estimator potrivit pentru p este proporµia de selecµie, adic p = p = Z n. Printr-un "volum mare" vom înµelege un n ce satisface: n 30, n p > 5 ³i n (1 p) > 5. Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelui de semnicatie α, este de forma: ( ) p (1 p) p (1 p) p z 1 α, p + z 2 n 1 α. (6.6) 2 n Acest interval de încredere este valabil pentru selecµie dintr-o populaµie innit (sau n N, de regul n < 0.05N) sau pentru selecµia cu repetiµie dintr-o populaµie nit. Dac selecµia se realizeaz f r repetiµie dintr-o populaµie nit (cu N astfel înât n 0.05N), atunci intervalul de încredere este: ( ) p (1 p) N n p (1 p) N n p z 1 α 2 n N 1, p + z 1 α. (6.7) 2 n N 1 Exemplu 6.3 Dintr-o selecµie de 200 de elevi ai unei ³coli cu 1276 de elevi, 65% arm c deµin cel puµin un telefon mobil. S se g seasc un interval de încredere pentru procentul de copii din respectiva ³coal ce deµin cel puµin un telefon mobil, la nivelul de semnicaµie α = Soluµie: Avem: n = 200, N = 1276, p = Deoarece n 0.05N, g sim c un interval de încredere la nivelul de semnicaµie 0.05 este ( ) 0.65 (1 0.65) (1 0.65) , = (58.93%, 71.07%). Exemplu 6.4 Într-un institut politehnic, s-a determinat c dintr-o selecµie aleatoare de 100 de studenµi înscri³i, doar 67 au terminat studiile, obµinând o diplom. G siµi un interval de încredere care, cu o condenµ de 90%, s determine procentul de studenµi absolvenµi dintre toµi studenµii ce au fost înscri³i. Soluµie: Mai întâi, observ m c α = 0.1, n > 30, p = = 0.67, n p = 67 > 5 ³i n(1 p) = 33 > 5. Deoarece nu ni se d vreo informaµie despre N (num rul total de studenµi înscri³i), putem presupune c n < 0.05N. Cuantila teoretica este z 0.95 = G sim c intervalul de încredere c utat este: ( ) 0.67 (1 0.67) 0.67 (1 0.67) , = (57.78%, 76.22%)
50 Geostatistica [Dr. Iulian Stoleriu] 49 7 Teste statistice Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utilizând datele experimentale culese. Testele prezentate mai jos au la baz noµiuni din teoria probabilit µilor. Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite estim ri de parametri ai unei repartiµii sau chiar putem prezice forma legii de repartiµie a caracteristicii considerate. Presupunem c Z este variabila de interes a unei populaµii statistice ³i c legea sa de probabilitate este dat de depinde de un parametru θ. In general, o repartitie poate depinde de mai multi parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, s presupunem c (z k ) k=1, n sunt datele observate relativ la caracteristica Z. Numim ipotez statistic tipul legii caracteristicii. o presupunere relativ la valorile parametului θ sau chiar referitoare la O ipotez neparametric este o presupunere relativ la repartitia lui Z. De exemplu, o ipotez de genul Z Normal. Numim ipotez parametric o presupunere f cut asupra valorii parametrilor unei repartiµii. Dac mulµimea la care se presupune c aparµine parametrul necunoscut este format dintr-un singur element, avem de-a face cu o ipotez parametric simpl. Altfel, avem o ipotez parametric compus. O ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate ³i o presupunem a priori a adev rat. Cu alte cuvinte, ipoteza nul este ceea ce dore³ti s crezi, în cazul în care nu exist suciente evidenµe care s sugereze contrariul. Un exemplu de ipotez nul este urm toarul: "presupus nevinovat, pân se g sesc dovezi care s ateste o vin ". O ipotez alternativ este orice alt ipotez admisibil cu care poate confruntat ipoteza nul. A testa o ipotez statistic (en., statistical inference) înseamn a lua una dintre deciziile: ipoteza nul se respinge (caz in care ipoteza alternativa este admisa) ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei) În Statistic, un rezultat se nume³te semnicativ din punct de vedere statistic dac este improbabil ca el s se realizat datorit ³ansei. Între dou valori exist o diferenµ semnicativ dac exist suciente dovezi statistice pentru a dovedi diferenµa, ³i nu datorit faptului c diferenµa ar mare. Numim nivel de semnicaµie probabilitatea de a respinge ipoteza nul când, de fapt, aceasta este adev rat. În general, nivelul de semnicaµie este o valoare pozitiva apropiata de 0, e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic, valoarea implicita pentru α este În urma unui test statistic pot aparea dou tipuri de erori: 1. eroarea de speµa (I) sau riscul furnizorului (en., false positive) este eroarea care se poate comite respingând o ipotez (în realitate) adev rat. Se mai nume³te ³i risc de genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnicaµie α, adic : α = P (H 0 se respinge H 0 este adev rat ). 2. eroarea de speµa a (II)-a sau riscul beneciarului (en., false negative) este eroarea care se poate comite acceptând o ipotez (în realitate) fals. Se mai nume³te ³i risc de genul al (II)-lea. Probabilitatea acestei erori este β = P (H 0 se admite H 0 este fals ).
51 Geostatistica [Dr. Iulian Stoleriu] 50 Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este mai grav decât riscul de genul al (II)-lea dac veric m calitatea unui articol de îmbrac minte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dac veric m concentraµia unui medicament. Denumim valoare P sau P valoare sau nivel de semnicaµie observat (en., P-value) probabilitatea de a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul este adev rat. Valoarea P este cea mai mic valoare a nivelului de semnicaµie α pentru care ipoteza (H 0 ) ar respins, bazându-ne pe observaµiile culese. Dac P v α, atunci respingem ipoteza nul la nivelul de semnicaµie α, iar dac P v > α, atunci admitem (H 0 ). Cu cât P v este mai mic, cu atât mai mari ³anse ca ipoteza nul s e respins. De exemplu, dac valoarea P este P v = atunci, bazându-ne pe observaµiile culese, vom respinge ipoteza (H 0 ) la un nivel de semnicaµie α = 0.05 sau α = 0.1, dar nu o putem respinge la un nivel de semnicaµie α = Dac ne raport m la P valoare, decizia într-un test statistic poate f cut astfel: dac aceasta valoare este mai mic decât nivelul de semnicaµie α, atunci ipoteza nul este respins, iar dac P value este mai mare decât α, atunci ipoteza nul nu poate respins. Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne d dreptul s decidem dac exist sau nu suciente evidenµe s concluzion m c o sarcin este prezent. Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor în acest caz vor c dea de acord cum c un false negative este mai grav decât un false positive. S presupunem c suntem într-o sal de judecat ³i c judec torul trebuie s decid dac un inculpat este sau nu vinovat. Are astfel de testat urm toarele ipoteze: { (H 0 ) inculpatul este nevinovat; (H 1 ) inculpatul este vinovat. Posibilele st ri reale (asupra c rora nu avem control) sunt: [1] inculpatul este nevinovat (H 0 este adev rat ³i H 1 este fals ); [2] inculpatul este vinovat (H 0 este fals ³i H 1 este adev rat ) Deciziile posibile (asupra c rora avem control putem lua o decizie corect sau una fals ) sunt: [i] H 0 se respinge (dovezi suciente pentru a încrimina inculpatul); [ii] H 0 nu se respinge (dovezi insuciente pentru a încrimina inculpatul); În realitate, avem urm toarele posibilit µi, sumarizate în Tabelul 7.1: Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 [1]&[i] [2]&[i] Accept H 0 [1]&[ii] [2]&[ii] Tabela 7.1: Posibilit µi decizionale. Interpret rile datelor din Tabelul 7.1 se g sesc în Tabelul 7.2.
52 Geostatistica [Dr. Iulian Stoleriu] 51 Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 închide o persoana nevinovat închide o persoana vinovat Accepta H 0 elibereaz o persoana nevinovat elibereaz o persoana vinovat Tabela 7.2: Decizii posibile. Situaµie real Decizii H 0 - adev rat H 0 - fals Respinge H 0 α judecat corect Accepta H 0 judecat corect β Tabela 7.3: Erori decizionale. Erorile posibile ce pot aparea sunt cele din Tabelul Tipuri de teste statistice Tipul unui test statistic este determinat de ipoteza alternativ (H 1 ). Astfel, putem avea: test unilateral stânga, atunci când ipoteza alternativ este θ < θ 0 ; test unilateral dreapta, atunci când ipoteza alternativ este θ > θ 0 ; test bilateral, atunci când ipoteza alternativ este θ θ 0. Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri. 7.2 Testul t pentru medie Testul t pentru medie se folose³te pentru selecµii normale de volum mic, de regul n < 30, când dispersia populaµiei este necunoscut a priori. Fie caracteristica Z ce urmeaz legea normal N (m, σ) cu µ necunoscut ³i σ > 0 necunoscut. Vrem s veric m ipoteza nul versus ipoteza alternativ cu probabilitatea de risc α. Metoda I: Etapele testului sunt urmatoarele: (H 0 ) : µ = µ 0 (H 1 ) : µ µ 0, Obtinem o multime de masuratori asupra variabilei Z: z 1, z 2,..., z n.
53 Geostatistica [Dr. Iulian Stoleriu] 52 Pe baza acestor masuratori putem calcula media si deviatia standard: z = 1 z i si s = 1 (z i z) n n 1 2. Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe care o testam: T 0 = z µ 0 s. (7.1) n Calculam cuantila de ordin 1 α 2 pentru repartitia t(n 1), notata aici prin t 1 α 2 ; n 1 Este un prag teoretic ce poate determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic (e.g., Matlab). Decizia se ia astfel: dac T 0 < t 1 α 2 ; n 1 (adica T 0 este sucient de mic in valoare absoluta), atunci admitem (H 0 ). dac T 0 t 1 α 2 ; n 1, atunci respingem (H 0 ). Metoda a II-a: O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul P valorii, P v. Reamintim, P valoarea este probabilitatea de a obµine un rezultat cel puµin la fel de extrem ca cel observat, presupunând c ipoteza nul este adev rat. Aceasta valoare este asata de orice soft statistic folosit in testarea ipotezelor. Utilizând P valoarea, testarea se face astfel: Ipoteza nul va respins dac P v < α ³i va admis dac P v α. A³adar, cu cât P v este mai mic, cu atât mai multe dovezi de respingere a ipotezei nule. Exemplu 7.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma sondajului sunt grupate in Tabelul 2.2. Dorim s test m, la nivelul de semnicaµie α = 0.05, dac media tuturor notelor la teza de Matematic a elevilor din oras este µ = 6.5. Soluµie: A³adar, avem de testat (H 0 ) µ = 6.5 vs. (H 1 ) µ 6.5. Media si deviatia standard a notelor din tabel sunt: z = , s = Valoarea statisticii t 0 si pragul teoretic de referinta (cuantila) sunt: t 0 = z µ 0 s = , t 1 α 2 ; n 1 = t 0.975; 89 = n Deoarece t 0 < t 0.975; 89, luam decizia ca ipoteza (H 0 ) este admisa la acest nivel de semnicatie. Metoda a II-a: Decizia testului putea luat ³i pe baza P valorii. Aceasta poate calculata de un soft statistic, valoarea ei ind P v = , care este mai mare decat valoarea lui α. Astfel, ipoteza nula este admisa in acest caz.
54 Geostatistica [Dr. Iulian Stoleriu] Test pentru dispersie Pentru variabila Z ca mai sus dorim sa testam ipoteza: (H 0 ) : σ 2 = σ 2 0 vs. ipoteza alternativ (H 1 ) : σ 2 σ 2 0, cu probabilitatea de risc α. Etapele testului sunt urmatoarele: Obtinem o multime de masuratori asupra variabilei Z: z 1, z 2,..., z n. Pe baza acestor masuratori putem calcula media si deviatia standard: z = 1 z i si s = 1 (z i z) n n 1 2. Calculam statistica χ 2 0 = n 1 σ 2 S 2, (7.2) Determinam cuantilele de ordine α/2 si 1 α/2 pentru repartitia χ 2 (n 1) (se pot obtine din tabele pentru repartitia χ 2 ). Luarea deciziei se face astfel: ( ) dac χ 2 0 χ 2 α 2 ; n 1, χ 2 1 α 2 ; n 1, atunci admitem (H 0 ) (i.e., σ 2 = σ0 2); ( ) dac χ 2 0 χ 2 α 2 ; n 1, χ 2 1 α 2 ; n 1, atunci respingem (H 0 ) (i.e., σ 2 σ0 2). Exemplu 7.2 Se cerceteaz caracteristica Z, ce reprezint diametrul pieselor (în mm) produse de un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecµie de piese de volum n = 11 ³i obµinem distribuµia empiric : ( S se testeze (cu α = 0.1) ipoteza nul (H 0 ) : σ 2 = 0.003, ). versus ipoteza alternativ (H 1 ) : σ Soluµie: Calculam mai intai s 2 si apoi valoarea statisticii test. Obtinem s 2 = si, astfel, χ 2 0 = = Cuantilele sunt: χ 2 α 2 ; n 1 = ; χ2 1 α ; n 1 = Astfel, intervalul teoretic de referinta este ( ) χ 2 0 χ 2 α 2 ; n 1, χ2 1 α 2 ; n 1 = (3.9403, ). Cum valoarea χ 2 0 = se aa in acest interval, tragem concluzia ca ipoteza nula nu poate respinsa. (o acceptam). Metoda a II-a: Decizia testului putea luat ³i pe baza P valorii. Aceasta poate calculata de un soft statistic, valoarea ei ind P v = , care este mai mare decat valoarea lui α. Astfel, ipoteza nula este admisa in acest caz.
55 Geostatistica [Dr. Iulian Stoleriu] Testul χ 2 de concordanµ Testele de concordanµ (en., goodness-of-t tests) realizeaz concordanµa între repartiµia empiric (repartiµia datelor observate) ³i repartiµia teoretic a unei variabile. Dou dintre cele mai des utilizate teste de concordanµ sunt testul χ 2 de concordanµ ³i testul Kolmogorov-Smirnov. Testul χ 2 de concordanµ poate utilizat ca un criteriu de vericare a ipotezei potrivit c reia un ansamblu de observaµii urmeaz o repartiµie dat. Se aplic la vericarea normalit µii, a exponenµialit µii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit ³i testul χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of t test). Acest test poate aplicat pentru orice tip de date pentru care funcµia de repartiµie empiric poate calculat. Pentru acest test, ipoteza nul este: Ipoteza alternativ este negaµia ipotezei nule. Etapele testului sunt urmatoarele: (H 0 ) : Funcµia de repartiµie a lui Z este F (z). 1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z 1, z 2,..., z n. 2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ. Formul m ipotezele statistice: (H 0 ) funcµia de repartiµie teoretic a variabilei aleatoare Z este F (z; θ 1, θ 2,..., θ p ) (H 1 ) ipoteza nul nu este adev rat. 3. Dac θ 1, θ 2,..., θ k (k p) nu sunt parametri cunoscuµi, atunci determin m estim rile ˆθ 1, ˆθ 2,..., ˆθ k pentru ace³tia. Altfel, s rim peste acest pas; 4. Grupam datele in clase si scriem distribuµia empiric de selecµie (tabloul de frecvenµe), ( ) clasa Oi, unde n n i = n, n i 5; i, n 5. Se calculeaz probabilitatea p i, ca un element luat la întâmplare s se ae în clasa O i. Dac O i = [a i 1, a i ), atunci k 6. Se calculeaz statistica χ 2 (n i n p i ) 2 0 =, care reprezinta discrepanta dintre valorile observate si cele n p i teoretice; 7. Determin m valoarea χ, care este { χ χ 2 1 α; k 1, în cazul in care nu avem de estimat parametrii repartitiei, =, în cazul in care am estimat p parametri pentru repartitie, χ 2 1 α; k p 1 unde χ 2 α; n este cuantila de ordin α pentru repartiµia χ2 (n); 8. Dac χ 2 0 < χ, atunci accept m (H 0 ), altfel o respingem. Exemplu 7.3 În urma unui recens mânt, s-a determinat c proporµiile persoanelor din România ce aparµin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%. S-au testat aleator 450 de persoane din România, obµinându-se urm toarele rezultate: Vericaµi, la nivelul de risc α = 0.05, compatibilitatea datelor cu rezultatul teoretic. Grupa sanguin O A B AB Frecvenµa
56 Geostatistica [Dr. Iulian Stoleriu] 55 Soluµie: Ipotezele statistice sunt: (H 0 ) : Rezultatul observat este compatibil cu cel teoretic, (H 1 ) : Exist diferenµe semnicative între rezultatul teoretic ³i observaµii. Dac ipoteza nul ar adev rat, atunci valorile a³teptate pentru cele patru grupe sanguine (din 450 de persoane) ar : O : 153.5, A : 184.5, B : 85, AB : 27. Calculez valoarea statisticii χ 2 pentru observaµiile date. Ponderile p i sunt: p 1 = 0.34, p 2 = 0.41, p 3 = 0.19, p 4 = Folosind formula, gasim ca: χ 2 0 = ( )2 ( )2 ( ) = ( )2 ( )2 (82 85)2 (31 27) = ( ) Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ = χ ; 3 = Deoarece χ 2 0 < χ, atunci accept m (H 0 ) la acest nivel de semnicaµie. Asadar, observatiile sunt compatibile cu cele teoretice. 7.5 Testul de concordanµ Kolmogorov-Smirnov Testul de concordanµ Kolmogorov-Smirnov poate utilizat în compararea unor observaµii date cu o repartiµie cunoscut (testul K-S cu o selecµie) sau în compararea a dou selecµii (testul K-S pentru dou selecµii). Spre deosebire de criteriul χ 2 al lui Pearson, care folose³te densitatea de repartiµie, criteriul Kolmogorov-Smirnov utilizeaz funcµia de repartiµie empiric, F n(x). În cazul unei singure selecµii, este calculat distanµa dintre funcµia de repartiµie empiric a selecµiei ³i funcµia de repartiµie teoretica pentru repartiµia testat, iar pentru dou selecµii este m surat distanµa între dou funcµii empirice de repartiµie. În ecare caz, repartiµiile considerate în ipoteza nul sunt repartiµii de tip continuu. Testul Kolmogorov- Smirnov este bazat pe rezultatul teoremei urmatoare: Teorema 7.4 (Kolmogorov) Fie caracteristica X de tip continuu, care are funcµia de repartiµie teoretic F ³i e funcµia de repartiµie de selecµie Fn(x). Atunci, distanta d n = sup Fn(x) F (x) satisface relatia: x R Testul K-S pentru o selecµie lim n P ( n d n < x) = K(x) = k= ( 1) k e 2 k2 x 2, x > 0. (7.3) În cazul în care ipotezele testului sunt satisf cute, acest test este mai puternic decât testul χ 2. Avem un set de date statistice independente, pe care le ordon m crescator, x 1 < x 2 < < x n. Aceste observaµii independente provin din aceea³i populaµie caracterizat de variabila aleatoare X, pentru care urm rim s îi stabilim repartiµia. Mai întâi, caut m s stabilim ipoteza nul. De exemplu, dac intuim c funcµia de repartiµie teoretic a lui X ar F (x), atunci stabilim: (H 0 ) : funcµia de repartiµie teoretic a variabilei aleatoare X este F (x).
57 Geostatistica [Dr. Iulian Stoleriu] 56 Ipoteza alternativ (H 1 ) este, de regul, ipoteza ce arm c (H 0 ) nu este adev rat. Alegem un nivel de semnicaµie α 1. În criteriul K-S pentru o singur selecµie, se compar funcµia F (x) intuit a priori cu funcµia de repartiµie empiric, Fn(z). Reamintim, Fn(x) = card{i; x i x}. n Studiind funcµia empiric de repartiµie a acestui set de date, Kolmogorov a g sit c distanµa d n = Fn(x) F (x) satisface relaµia (7.3)), unde K(λ), λ > 0, este funcµia lui Kolmogorov (tabelat ). În sup x R testul K-S, m sura d n caracterizeaz concordanµa dintre F (x) ³i F n(x). Dac ipoteza (H 0 ) este adev rat, atunci diferenµele d n nu vor dep ³i anumite valori. Etapele aplic rii testului lui Kolmogorov-Smirnov pentru o selecµie: Se dau α ³i x 1 < x 2 < < x n. Consider m cunoscut (intuim) F (x); Ipotezele statistice sunt: (H 0 ) funcµia de repartiµie teoretic a variabilei aleatoare Z este F (x) (H 1 ) ipoteza nul nu este adev rat. Calcul m λ 1 α; n, cuantila de ordin 1 α pentru funcµia lui Kolmogorov. Aceasta cuuantila verica relatia K(λ 1 α ) = 1 α. Se calculeaz d n = max F n(x) F (x) ; x Dac d n satisface inegalitatea n d n < λ 1 α, atunci admitem ipoteza (H 0 ), altfel o respingem. Exerciµiu 7.1 (test de vericare a normalit µii) Consider m selecµia { 2; 0.5; 0; 1; 1; 2; 2; 3}, extras dintr-o anumit colectivitate. La nivelul de semnicaµie α = 0.1, s se decid dac populaµia din care provine selecµia este normal de medie 1 ³i dispersie 2 (i.e., X N (1, 2)). Soluµie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calcul m funcµia de repartiµie empiric. Avem: 0, dac x < 2; Fn(x) = P (X x) = , dac x [ 2, 0.5);, dac x [ 0.5, 0);, dac x [0, 1);, dac x [1, 2); 8, dac x [2, 3); 1, dac x 3. Pentru α = 0.1 ³i n = 8, c ut m în tabelul pentru inversa funcµiei lui Kolmogorov acel x 1 α; 8 = x 0.9; 8 astfel încât K(x 1 α; 8 ) = 1 α. G sim c x 0.9; 8 = Pe de alt parte, F (x) = Θ( x 1 2 ), unde Θ(x) este funcµia de repartiµie pentru legea normal N (0, 1). Ipoteza c X urmeaz repartiµia normal N (1, 2) este acceptat dac n d n < x 1 α. Calculele pentru determinarea valorii d n sunt date de Tabelul 7.4. În Figura 7.1, putem observa reprezent rile acestor dou funcµii pentru setul de date observate.
58 Geostatistica [Dr. Iulian Stoleriu] 57 x i F (x i ) Fn(x i 0) Fn(x i ) Fn(x i 0) F (x i ) Fn(x i ) F (x i ) Tabela 7.4: Tabel de valori pentru testul Kolmogorov-Smirnov. Pentru a calcula d n, not m faptul c cea mai mare diferenµ între F (x) ³i Fn(x) poate realizat ori înainte de salturile funcµiei Fn, ori dup acestea, i.e., { sup F (x) Fn(x) F (x i ) F = max n(x i 0), înainte de saltul i; x R i F (x i ) Fn(x i + 0), dup saltul i. Din tabel, observ m c d n = Deoarece n d n = = < 0.411, concluzion m c putem accepta ipoteza (H 0 ) la pragul de semnicaµie α = 0.1. Observaµia 7.5 În cazul în care avem de comparat dou repartiµii, proced m astfel. S presupunem c F m(z) este funcµia de repartiµie empiric pentru o selecµie de volum m dintr-o populaµie ce are funcµia teoretic de repartiµie F (z)) ³i c G n(z) este funcµia de repartiµie empiric pentru o selecµie de volum n dintr-o populaµie ce are funcµia teoretic de repartiµie G(z). Dorim s test m (H 0 ) : F = G versus (H 1 ) : F G. (eventual, în (H 1 ) putem considera F > G sau F < G.) Consider m statistica d m,n = sup Fm(z) G n(z), z ce reprezint diferenµa maxim între cele dou funcµii (vezi Figura 7.2). Etapele testului urmeaz îndeaproape pe cele din testul K-S cu o singur selecµie. Decizia se face pe baza criteriului m n m + n d m,n < q α. Testul Kolmogorov-Smirnov pentru dou selecµii este unul dintre cele mai utile teste de contingenµ pentru compararea a dou selecµii. Acest test nu poate specica natura celor dou repartiµii. Etapele aplic rii testului lui Kolmogorov-Smirnov pentru dou selecµii: Se dau α, x 1 < x 2 < < x m ³i y 1 < y 2 < < y n. Consider m cunoscute (intuim) F (x) ³i G(x); Ipotezele statistice sunt: (H 0 ) F = G vs. (H 1 ) F G. Determinam pragul teoretic q α corespunzator valorii α din tabelul urmator: α q α
59 Geostatistica [Dr. Iulian Stoleriu] 58 Se calculeaz d m,n = sup Fm(z) G n(z). z Dac d m,n satisface inegalitatea m n m+n d m,n < q α, atunci admitem ipoteza (H 0 ), altfel ipoteza nul este respins la acest prag de semnicaµie. Figura 7.1: F n(x) ³i F (x) pentru testul Kolmogorov-Smirnov cu o selectie. Figura 7.2: Exemplu de funcµiile empirice de repartiµie în testul K-S cu dou selecµii.
60 Geostatistica [Dr. Iulian Stoleriu] 59 8 Regresie 8.1 Punerea problemei În acest capitol vom discuta m suri ³i tehnici de determinare a leg turii între dou sau mai multe variabile aleatoare. Primele metode utilizate în studiul relaµiilor dintre dou sau mai multe variabile au ap rut de la începutul secolului al XIX-lea, în lucr rile lui Legendre 8 ³i Gauss 9, în ce prive³te metoda celor mai mici p trate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un alt mare om de ³tiinµ al timpului, Francis Galton 10, a studiat gradul de asem nare între copii ³i p rinµi, atât la oameni, cât ³i la plante, observând c în lµimea medie a descendenµilor este legat liniar de în lµimea ascendenµilor. Este primul care a utilizat conceptele de corelaµie ³i regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit c din p rinµi a c ror în lµime este mai mic decât media colectivit µii provin copii cu o în lµime superioar lor ³i vice-versa. Astfel, a concluzionat c în lµimea copiilor ce provin din p rinµi înalµi tinde s "regreseze" spre în lµimea medie a populaµiei. Din lucr rile lui Galton s-a inspirat un student de-al s u, Karl Pearson, care a continuat ideile lui Galton ³i a introdus coecientul (empiric) de corelaµie ce îi poart numele. Acest coecient a fost prima m sur important introdus ce cuantica t ria leg turii dintre dou variabile ale unei populaµii statistice. Un ingredient fundamental în studiul acestor dou concepte este diagrama prin puncte, a³a-numita scatter plot. În probleme de regresie în care apare o singur variabila r spuns ³i o singur variabil observat, diagrama scatter plot (r spuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram scatter plot ar trebui reprezentat pentru orice problem de analiz regresional ; aceasta va oferi o prim idee despre ce tip de regresie vom folosi. Exemple de astfel de diagrame sunt cele din Figura 4.2. Regresia este o metod statistic utilizat pentru descrierea naturii relaµiei între variabile. De fapt, regresia stabile³te modul prin care o variabil depinde de alt variabil, sau de alte variabile. Analiza regresional cuprinde tehnici de modelare ³i analiz a relaµiei dintre o variabil dependent (variabila r spuns) ³i una sau mai multe variabile independente. De asemenea, r spunde la întreb ri legate de predicµia valorilor viitoare ale variabilei r spuns pornind de la o variabil dat sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante în prezicerea variabilei r spuns. Se nume³te variabil independent o variabil ce poate manipulat (numit ³i variabil predictor, stimul sau comandat ), iar o variabil dependent (sau variabila prezis ) este variabila care dorim s o prezicem, adic o variabil c rei rezultat depinde de observaµiile f cute asupra variabilelor independente. S lu m exemplul unei cutii negre (black box) (vezi Figura 8.1). În aceasta cutie intr (sunt înregistrate) informaµiile x 1, x 2,..., x m, care sunt prelucrate (în timpul prelucr rii apar anumiµi parametri, β 1, β 2,..., β k ), iar rezultatul nal este înregistrat într-o singur variabila r spuns, y. Figura 8.1: Black box. De exemplu, se dore³te a se stabili o relaµie între valoarea pensiei (y) în funcµie de num rul de ani lucraµi (x 1 ) ³i salariul avut de-alungul carierei (x 2 ). Variabilele independente sunt m surate exact, f r erori. În timpul prelucr rii datelor sau dup aceasta pot ap ra distorsiuni în sistem, de care putem µine cont dac introducem un parametru ce s cuantice eroarea ce poate ap rea la observarea variabilei y. Se stabile³te astfel o leg tur între o variabil dependent, y, ³i una sau mai multe variabile independente, 8 Adrien-Marie Legendre ( ), matematician francez 9 Johann Carl Friedrich Gauss ( ), matematician ³i zician german 10 Sir Francis Galton ( ), om de ³tiinµ britanic
61 Geostatistica [Dr. Iulian Stoleriu] 60 x 1, x 2,..., x m, care, în cele mai multe cazuri, are forma matematic general y = f(x 1, x 2,..., x m ; β 1, β 2,..., β k ) + ε, (8.1) unde β 1, β 2,..., β k sunt parametri reali necunoscuµi a priori (denumiµi parametri de regresie) ³i ε este o perturbaµie aleatoare. În cele mai multe aplicaµii, ε este o eroare de m sur, considerat modelat printr-o variabil aleatoare normal de medie zero. Funcµia f se nume³te funcµie de regresie. Dac aceasta nu este cunoscut a priori, atunci poate greu de determinat iar utilizatorul analizei regresionale va trebui s o intuiasc sau s o aproximeze utilizând metode de tip trial and error (prin încerc ri). Dac avem doar o variabila independent (un singur x), atunci spunem c avem o regresie simpl. Regresia multipl face referire la situaµia în care avem multe variabile independente. Dac observarea variabilei dependente s-ar face f r vreo eroare, atunci relaµia (8.1) ar deveni (cazul ideal): y = f(x 1, x 2,....., x m ; β 1, β 2,..., β k ). (8.2) Forma vectorial a dependenµei (8.1) este: y = f(x; β) + ε. (8.3) Pentru a o analiz complet a regresiei (8.1), va trebui sa intuim forma funcµiei f ³i apoi s determin m (aproxim m) valorile parametrilor de regresie. În acest scop, un experimentalist va face un num r sucient de observaµii (experimente statistice), în urma c rora va aproxima aceste valori. Dac not m cu n num rul de experimente efectuate, atunci le putem contabiliza pe acestea în urm torul sistem stochastic de ecuaµii: y i = f(x, β) + ε i, i = 1, 2,..., n. (8.4) În ipoteze uzuale, erorile ε i sunt variabile aleatoare identic repartizate normal, independente de medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (8.4) cu n ecuaµii are necunoscutele {β j } j ³i σ. În cazul în care num rul de experimente este mai mic decât num rul parametrilor ce trebuie aproximaµi (n < k), atunci nu avem suciente informaµii pentru a determina aproxim rile. Dac n = k, atunci problema se reduce la a rezolva n ecuaµii cu n necunoscute. În cel de-al treilea caz posibil, n > k, atunci avem un sistem cu valori nedeterminate. Exemple de regresii: În funcµie de forma funcµiei de regresie f, putem avea: regresie liniar simpl, în cazul în care avem doar o variabil independent ³i f(x; β) = β 0 + β 1 x. regresie liniar multipl, dac f(x; β) = β 0 + β 1 x 1 + β 2 x β m x m. regresie p tratic multipl (cu dou variabile), dac f(x; β) = β 0 + β 1 x 1 + β 2 x 2 + β 11 x β 12 x 1 x 2 + β 22 x 2 2.
62 Geostatistica [Dr. Iulian Stoleriu] 61 regresie polinomial, dac f(x; β) = β 0 + β 1 x + β 2 x 2 + β 3 x β k x k. Vom avea regresie p tratic pentru k = 2, regresie cubic pentru k = 3 etc. regresie exponenµial, când regresie logaritmic, dac f(x; β) = β 0 e β 1 x. f(x; β) = β 0 log β1 x. ³i altele. De remarcat faptul c primele patru modele sunt liniare în parametri, pe când ultimele dou nu sunt liniare în parametri. Modelele determinate de aceste funcµii se vor numi modele de regresie (curbe, suprafeµe etc). În cadrul analizei regresionale, se cunosc datele de intrare, {x i } i, ³i c ut m s estim m parametrii de regresie {β j } j ³i deviaµia standard a erorilor, σ. De regula, functia f este necunoscut si va trebui sa e intuit de statistician.
63 Geostatistica [Dr. Iulian Stoleriu] 62 9 Metode de interpolare spaµial Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem astfel ca au un caracter spatial. Pozitia spatiala poate unu, doi sau trei-dimensionala. Vom considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ 1, ζ 2 ) vectorul de coordonate bidimensionale. tre aceste metode, distingem metodele deterministe si cele geostatistice (sau stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot colectate masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont de erorile masuratorilor si de corelatiile dintre date. 9.1 Metode deterministe de interpolare spatiala Generic, vom nota prin ẑ o valoare prezisa a variabilei Z. z 0 = z(x 0 ) pe baza masuratorilor este media ponderata: O formula generala de estimare a valorii ẑ(x 0 ) = λ i z(x i ), (9.1) unde λ i sunt ponderile ce trebuie determinate. 1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom numi o diagrama Voronoi indusa de un set de locatii x 1, x 2,..., x n (numite si situri) o diviziune a lui R in subregiuni, astfel incat pentru ecare locatie, regiunea care o contine este formata din punctele cele mai apropiate locatiei. Pentru ecare punct x i, sa notam cu V i regiunea ce o contine. Se considera ca z i este valoarea variabilei Z pentru ecare locatie din regiunea V i. In cazul unei diagrame Voronoi, se pot considera ponderile λ i ca ind { 1, daca x i V i, λ i = 0, daca x i V i. Totusi, astfel de predictii sunt grosiere, deoarece in ecare subregiune avem doar o valoare si nicio indicatie a erorii cu care a fost observata. De asemenea, nu se tine cont de conguratia locatiilor masuratorilor. Figura 9.1: O diagrama Voronoi
64 Geostatistica [Dr. Iulian Stoleriu] Metoda triangularii (Delaunay): Pentru o regiune R in care avem un set de locatii x 1, x 2,..., x n, o triangulare Delaunay este o impartire a regiunii R in subregiuni triunghiulare, astfel incat nicio locatie data nu se aa in cercul circumscris vreunui triunghi din diviziune. O astfel de triangulare este unica pentru un set de locatii aate in pozitie generala (nu se aa pe o aceeasi linie). In cazul unei triangulari, ponderile pentru ecare regiune triunghiulara sunt obtinute prin interpolarea liniara a coordonatelor varfurilor triunghiului. Aceasta forma de interpolare este mai buna decat cea anterioara, dar nu sucient de folositoare. De asemenea, o predictie folosind aceasta metoda nu tine cont de erorile de masurare. Figura 9.2: O triangulare Delaunay 3. Metoda vecinilor naturali: Este o metoda de interpolare introdusa de matematicianul Robin Sibson, care se bazeaza pe diagrama Voronoi. Pe baza locatiilor unde au fost facute masuratori, se construieste diagrama Voronoi. Presupunem ca se doreste prezicerea valorii z 0 a variabilei Z intr-o alta locatie decat cea deja observata, e ea x 0. Pe baza locatiilor x 0, x 1,..., x n, se construieste o alta diagrama Voronoi, care incorporeaza si aceasta noua locatie. Vom nota cu A aria regiunii care contine locatia x 0 (este regiunea hasurata din Figura 9.3) si, pentru ecare i, notez cu A i intersectia regiunii care contine pe x 0 cu regiunea ce contine locatia x i din vechea retea Voronoi. Presupunem ca regiunea de arie A intersecteaza r astfel de regiuni. In mod clar, avem ca A 1 + A A r = A. Ponderile λ i sunt considerate astfel: Figura 9.3: Diagrama pentru metoda vecinilor λ i = A i A 1 + A A r, unde suma se face dupa indicii locatiilor invecinate locatiei x 0. Astfel, ponderea λ i va nenula daca locatia x i este vecin natural cu x 0, si λ i = 0 daca x i nu este vecin natural cu x Metoda ponderilor inverselor distantelor: Notam cu d i distanta dintre punctele x i si x 0. ponderile λ i = d r i d r i Aceasta metoda foloseste interpolarea (9.1) cu, i = 1, 2,..., n, unde r > 0 este o valoare aleasa de investigator. Valoarea cea mai utilizata este r = 2. Rezultatul acestei interpolari este ca punctele mai apropiate de punctul de interpolare au o pondere mai mare
65 Geostatistica [Dr. Iulian Stoleriu] 64 decat cele mai indepartate. Cu cat r este mai mare, cu atat ponderea punctelor apropiate creste. Astfel, valoarea variabilei in locatia x 0 poate estimata prin: d r i z i, daca d i 0, ẑ(x 0 ) = d r i z i, daca d i = 0. Pentru r = 2, valoarea variabilei in locatia x 0 poate estimata prin: λ i z i, daca distanta dintre x i si x 0 este nenula, ẑ(x 0 ) =, daca distanta dintre x i si x 0 este0, z i unde 1 d 2 i λ i = 1 d d , pentru ecare i = 1, 2,..., n. 2 d 2 n Un mare dezavantaj al acestui tip de interpolare este ca nu tine cont de conguratia selectiei alese. 5. Metoda determinarii suprafetelor de raspuns (regresie sau trend): Aceasta metoda este asemanatoare cu metoda regresiei multiple. Sa presupunem ca dorim sa dorim sa prezicem valorile pe care o variabila Z le ia intr-o anumita regiune R pe baza masuratorilor facute in n locatii din aceasta regiune. Sa presupunem ca aceste locatii sunt x 1, x 2,..., x n. Deoarece aceste puncte sunt planare, pentru a determina exact ecare locatie este nevoie de cate doua coordonate. Vom nota generic prin (x i1, x i2 ) coordonatele locatiei x i, pentru ecare i = 1, 2,..., n. Dorim sa prezicem valoarea variabilei Z intr-o locatie generica x din R, tinand cont de valorile cunoscute z(x 1 ), z(x 2 ),..., z(x n ). Presupunem ca pentru locatia x avem coordonatele (x 1, x 2 ). In general, valoarea prezisa de o suprafata de raspuns va de forma: z(x) := z(x 1, x 2 ) = f(x 1, x 2 ) + ɛ x, (9.2) unde f(x) este o functie de coordonatele spatiale ale locatiei investigate si ɛ x este o eroare de masurare. Aceasta eroare este presupusa a normala, de medie 0 si deviatie standard σ. Mai mult, se presupune ca erorile observate in diferite locatii sa e independente intre ele. Exemple de suprafete de trend: (trend liniar, adica un plan): (trend cuadratic pur): (trend cuadratic cu interactiuni): f(x 1, x 2 ) = β 0 + β 1 x 1 + β 2 x 2. f(x 1, x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x β 4 x 2 2. f(x 1, x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 4 x β 5 x 2 2.
66 Geostatistica [Dr. Iulian Stoleriu] 65 (trend cubic): f(x 1, x 2 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 4 x β 5 x β 6 x 2 1x 2 + β 7 x 1 x β 8 x β 9 x 3 2. Pe baza masuratorilor deja facute, se estimeaza parametrii β i, obtinandu-se astfel suprafata de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de aproximare). De indata ce acesti coecienti (se mai numesc si coecienti de regresie) sunt determinati, vom cunoaste forma exacta a functiei f(x 1, x 2 ), si astfel putem estima valoarea variabilei in locatia x = (x 1, x 2 ) prin ẑ(x) = f(x 1, x 2 ). Spre exemplu, in cazul unui trend liniar cu β 0, β 1, β 2 cunoscuti, estimam ẑ(x) prin ẑ(x) = β 0 + β 1 x 1 + β 2 x 2. De indata ce functia de regresie f este determinata si parametrii sunt estimati pe baza observatiilor, se poate folosi modelul de regresie in predictii in locatii de unde nu s-au facut masuratori. Insa, aceste predictii trebuie folosite cu mare atentie, deoarece estimarile pot total neadecvate in cazul in care locatiile sunt din afara regiunii (ariei) acoperite de observatii. 6. Metoda functiilor spline O functie spline este o functie denita pe portiuni, iar in ecare portiune avem un polinom. Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza acestei functii putem estima valoarea unei variabile intr-o locatie x 0 prin valoarea functiei in x 0. Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in Figura 9.4: Functii spline 10 Procese stochastice spaµiale Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set de locatii x 1, x 2,..., x n. Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile z(x 1 ), z(x 2 ),..., z(x n ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne indreptateste sa consideram variabilele aleatoare Z(x 1 ), Z(x 2 ),..., Z(x n ). In mod generic, prin Z(x i ) intelegem variabila Z in locatia x i, iar z(x i ) este o valoare observata a sa. Pentru ecare locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care poate sa difere in functie de locatie.
67 Geostatistica [Dr. Iulian Stoleriu] 66 Sirul de variabile aleatoare {Z(x); x R} se numeste proces stochastic sau câmp aleator sau functie aleatoare. Acesta este un sir innit, deoarece exista o innitate de locatii x intr-o regiune. O realizare a functiei aleatoare (sau variabila regionalizata) este formata din multimea valorilor obtinute in urma unei masurari a ecarei variabile in parte. Este cunoscut faptul ca valorile observate in locatii apropiate sunt apropiate iar cele observate in locatii indepartate sunt diferite, aceasta insemnand ca aceste variabile Z(x i ) sunt corelate intre ele. Acest aspect nu este comun Statisticii clasice, unde variabilele ce corespund selectiei sunt independente intre ele si, mai mult, identic repartizate. In Figura 10.1 am reprezentat 5 realizari ale unui proces stochastic. Figura 10.1: 5 realizari ale unei functii aleatoare Un camp aleator este cunoscut in totalitate daca pentru orice conguratie de locatii, z(x 1 ), z(x 2 ),..., z(x n ), s-ar cunoaste repartitia variabilei vectoriale n dimentionale V (x) = (Z(x 1 ), Z(x 2 ),..., Z(x n )), lucru care este practic imposibil. In unele cazuri se poate presupune ca repartitia vectorului V (x) este normala n dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de momentele variabilelor ce-l compun. Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie relatia intre doua variabile Z(x i ) si Z(x j ) (unde locatiile x i si x j sunt diferite), vom utiliza conceptele de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale. Pentru doua locatii x 1 si x 2 din R, denim covarianµa variabilelor Z(x 1 ) ³i Z(x 2 ), notat prin cov(x 1, x 2 ), cantitatea cov(z(x 1 ), Z(x 2 )) = E[(Z(x 1 ) µ(x 1 ))(Z(x 2 ) µ(x 2 )], (10.1) unde µ(x 1 ) si µ(x 2 ) sunt mediile variabilelor in locatiile x 1, respectiv, x 2. Covarianta detecteaz doar dependenµe liniare între dou variabile aleatoare. coincid (scriem ca x 1 = x 2 = x), atunci obtinem varianta a priori a procesului: cov(z(x), Z(x)) = E[(Z(x) µ)(z(x) µ)] = E[(Z(x) µ) 2 ] = σ 2 Z(x). Daca cele doua locatii O m sur (adimensionala) a corelaµiei dintre dou variabile este coecientul de corelaµie (sau corelatia, in unele carti). Acesta este utilizat ca ind o m sur a dependenµei liniare între dou variabile. Se nume³te corelaµie a variabilelor Z(x 1 ) ³i Z(x 2 ) cantitatea ρ = cov(z(x 1), Z(x 2 )) σ 1 σ 2, unde σ 1 si σ 2 sunt deviatiile standard pentru Z(x 1 ), respectiv, Z(x 2 ). Un estimator pentru covarianta variabilelor Z(x 1 ) ³i Z(x 2 ), bazat pe un set de n observatii perechi, {(z 1,1, z 2,1 ), (z 1,2, z 2,2 ),..., (z 1,n, z 2,n )}, este: ĉov(x 1, x 2 ) = 1 n [(z 1,i z 1 )(z 2,i z 2 )],
68 Geostatistica [Dr. Iulian Stoleriu] 67 unde z 1 si z 2 sunt mediile pentru ecare selectie in parte.. Dupa cum se observa din relatia (10.1), pentru a evalua covarianta variabilelor Z(x 1 ) ³i Z(x 2 ) avem nevoie de mediile acestor variabile. Din pacate, aceste valori nu sunt cunoscute. Pentru a simplica formula, trebuie sa facem presupuneri suplimentare. Una dintre acestea este legata de invarianta mediei µ(x) de locatia x, pe care o tratam in cele ce urmeaza Procese stochastice stationare Stationaritatea este o presupunere fundamentala in Geostatistica. Un proces stochastic (functie aleatoare) {Z(x); x R} se numeste proces stationar daca repartitia variabilei Z(x) nu depinde de locatia x. Cu alte cuvinte, daca pentru orice conguratie de locatii, x 1, x 2,..., x n, repartitia variabilei vectoriale n dimentionale V (x) = (Z(x 1 ), Z(x 2 ),..., Z(x n )) este independenta de locatii. Aceasta inseamna ca pentru orice locatie x, variabila Z(x) urmeaza aceeasi repartitie. O consecinta a acestui fapt este ca media µ(x), dispersia σ 2 (x), dar si momentele de ordin superior (daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2, pentru orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca Z(x) = µ + ɛ(x), unde ɛ(x) sunt erori normal repartizate, ɛ(x) N (m, σ), pentru orice x din regiune. Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar momente de ordinul 1 si 2 independente de locatie. Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie, dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x R} se numeste proces slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic, scriem astfel: µ(x) = µ, σ 2 (x) = σ 2, cov(z(x i ), Z(x j )) = C(x i x j ), pentru orice locatie x R, unde C(x i x j ) este o functie ce depinde doar de x i x j si pe care o vom preciza la momentul potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z Ergodicitate Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am observat dintr-o innitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat mai dela despre functia aleatoare, ar necesar sa avem foarte multe astfel de realizari (variabile regionalizate). In practica poate imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o singura variabila regionalizata. Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media, varianta, momente) pot deduse dintr-o singura realizare (variabile regionalizate), de volum sucient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate testata.
69 Geostatistica [Dr. Iulian Stoleriu] Functia de covarianµ Un rezultat important ar sa descriem covarianta dintre variabilele Z(x 1 ) ³i Z(x 2 ) macar intr-un caz restrictiv, dar nu foarte simplist. Sa presupunem ca functia aleatoare Z(x) este stationara de ordinul al doilea si, pentru doua locatii x 1 si x j din R, sa notam variabila lag cu h = x i x j. Deoarece functia aleatoare este slab stationara, covariantele vor depinde doar de lag si nu de pozitii. Pentru o locatie x generica, vom scrie ca: cov(z(x), Z(x + h)) = E[(Z(x) µ) (Z(x + h) µ)] = C(h). Functia C(h) se va numi functia de covarianta. De multe ori, i se atribuie denumirea de functie de autocovarianta, deoarece in calcularea covariantei apare aceeasi variabila, desi in diverse locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia. Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un proces stationar, functia de covarianta dene C(h) = E[(µ + ɛ(x) µ) (µ + ɛ(x + h) µ)] = E[ɛ(x) ɛ(x + h))]. Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea urmatoare: ρ(h) = C(h) C(0) = C(h) σ 2, unde prin C(0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie de corelatie sau corelograma Variograma O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea (continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le numim Z 1 si Z 2, sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 10.1 pentru aproximarile parametrilor respectivi si Figura 10.2 pentru o reprezentare cu histograme a datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din Figura 10.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea variabilei Z 2 este mai "grosiera" decat cea reprezentata de variabila Z 1. Variabila Z 1 se modica mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile variabilei par a neschimbate. Totodata, nu putem spune ca Z 2 are o variatie mai mare decat Z 1, deoarece varianµele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coecientii de variatie sunt egali. valori numerice variabila Z 1 variabila Z 2 media x mediana M e varianµa s prima cuartila q a treia cuartila q volumul n Tabela 10.1: Valori numerice pentru doua variabile spatiale Figura 10.2: Reprezentarile cu histograme pentru cele doua variabile
70 Geostatistica [Dr. Iulian Stoleriu] 69 Figura 10.3: Reprezentarile 2D pentru variabilele Z 1 si Z 2 In acest caz, valorile numerice asociate celor doua seturi de date nu pot identica variabilitatea celor doua caracteristici. Daca am luat o decizie doar bazandu-ne pe valorile din Tabelul 10.1, am cochis ca Z 1 si Z 2 au aceeasi repartitie, concluzie care este evident falsa. Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor asociate celor doua variabile. In Figura 10.4, se observa ca variogramele asociate celor doua variabile difera. Figura 10.4: Reprezentarile variogramelor empirice si teoretice pentru variabilele Z 1 si Z 2 Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale unei variabile spatiale. Cum o variabila spatiala are, in general, o innitate de realizari, aceasta variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este variograma formata cu o anumita realizare a procesului stochastic intr-o regiune nita, daca am avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor variabilelor regionale legate de procesul stochastic studiat. Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat sa rezolve aceasta problema prin considerarea unor ipoteze simplicatoare. Cel putin pentru valori mici ale valorii lag h,
71 Geostatistica [Dr. Iulian Stoleriu] 70 media variatiei procesului stochastic intre doua locatii x si x + h este 0, iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte, procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie astfel: E[Z(x + h) Z(x)] = 0; (10.2) si E[(Z(x + h) Z(x)) 2 ] = 2γ(h), (10.3) unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin denitie, formula pentru variograma este: Deoarece E[Z(x + h) Z(x)] = 0 si γ(h) = 1 Var[Z(x + h) Z(x)]. (10.4) 2 Var[Z(x + h) Z(x)] = E[(Z(x + h) Z(x)) 2 ] (E[Z(x + h) Z(x)]) 2, gasim va variograma poate exprimata si astfel: γ(h) = 1 2 E[(Z(x + h) Z(x))2 ]. (10.5) Daca variabila Z(x) este 1-dimensionala (x = x, h = h), atunci formula din denitie se scrie astfel: γ(h) = 1 Var[Z(x + h) Z(x)]. (10.6) 2 Daca variabila Z(x) este 2-dimensionala (x = (x 1, x 2 ), h = (h 1, h 2 )), atunci formula din denitie se scrie astfel: γ(h) = 1 2 Var[Z(x 1 + h 1, x 2 + h 2 ) Z(x 1, x 2 )]. (10.7) Daca variabila Z(x) este 3-dimensionala (x = (x 1, x 2, x 3 ), h = (h 1, h 2, h 3 )), atunci formula din denitie se scrie astfel: γ(h) = 1 2 Var[Z(x 1 + h 1, x 2 + h 2, x 3 + h 3 ) Z(x 1, x 2, x 3 )]. (10.8) Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma. Legatura sa cu functia de covarianta este urmatoarea: Legatura variogramei cu corelatia (sau it corelograma) este data de: γ(h) = C(0) C(h). (10.9) γ(h) = σ 2 [1 ρ(h)]. (10.10) In Geostatistica, o variograma poate caracterizata de urmatorii parametri:
72 Geostatistica [Dr. Iulian Stoleriu] 71 h Se numeste sill valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru doua locatii foarte indepartate, covarianta este aproape 0. Se numeste range prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt corelate cu Z(x) se numeste zona de inuenta a locatiei x. Se numeste nugget (sau efectul nugget) valoarea variogramei pentru h foarte apropiat de zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate, care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci h 0 variograma va pleca din origine. Figura 10.5: Variograma si covarianta Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este importanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru variograma teoretica denita prin formula (10.4). 11 Modelarea variogramei teoretice 11.1 Proprietati ale functiilor de corelatie spatiale Prezentam mai jos proprietati ale covariantei, corelogramei, sau variogramei: γ(0) = 0. Cand h creste sucient de mult, γ(h) tinde sa devina constant. Aceasta insemna lipsa de corelatie intre valorile variabilei din locatii indepartate. Variograma γ(h) poate sa nu e continua doar in h = 0 (origine). In acest caz, saltul discontinuitatii se numeste efect nugget. Efectul nugget este r = C(0) = Var[Z(x)] = σ 2 > 0. C(h) = C( h) si γ(h) = γ( h) pentru orice lag h, adica functia de corelatie si variograma sunt functii pare. Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0) C(0) = 1. Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine. Matricea de covarianta C(x 1, x 1 ) C(x 1, x 2 ) C(x 1, x n ) C(x 2, x 1 ) C(x 2, x 2 ) C(x 2, x n )..... C(x n, x 1 ) C(x n, x 2 ) C(x n, x n )
73 Geostatistica [Dr. Iulian Stoleriu] 72 este pozitiv denita, in sensul ca toti determinantii minorilor principali sunt nenegativi. variograma este negativ semidenita. Astfel, Este posibil ca variatia spatiala sa se modice in functie de directia dintre locatiile x si x + h, fenomen numit anizotropie. Un exemplu de anizotropie este mineralizarea. Daca x = (x 1, x 2, x 3 ) (regiune 3 dimensionala), atunci h = h h2 2 + h2 3 si γ(h) va reprezenta o familie de variograme γ( h, α), unde α este directia. Ca functie de variabila lag h, variograma creste mai incet decat creste h 2. Daca ar creste mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator. Figura 11.1: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b) constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) uctuanta Comportamentul variogramei in jurul originii Cand variabila lag h se apropie de 0, forma variogramei poate una dintre cele reprezentate in Figura Putem avea un comportament liniar care trece prin 0. In acest caz, pentru h sucient de mic, variograma are forma γ(h) = a h. Este posibil ca variograma sa aiba o forma aproximativ liniara cand h este sucient de mic, insa sa nu treaca prin 0. Este cazul gurii (b), in care se observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h sucient de mic, de forma γ(h) = a h 2. In gura (c), variograma trece prin 0, dar exista cazuri in care se poate observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).
74 Geostatistica [Dr. Iulian Stoleriu] 73 Figura 11.2: Diverse tipuri de comportament in jurul originii unei variograme: (a) liniar; (b) efect nugget; (c) parabolic Modele de variograma Nu orice functie care se apropie sucient de mult de variograma empirica poate o variograma teoretica. O variograma teoretica va trebui sa satisfaca anumite conditii, dupa cum urmeaza: functia ia doar valori pozitive (mai putin, eventual, in cazul h = 0); functia trebuie sa e crescatoare in h; pentru h sucient de mare, functia atinge un maximum (sill); uneori, aceasta functie nu porneste din 0, caz in care valoarea γ(0) se numeste efect nugget; exista cazuri in care functia uctueaza periodic (apar zone numite holes); Modelele de variograma prezentate mai jos sunt modele izotropice, astfel ca functiile depind doar de h = h. Putem construi modele marginite sau nemarginite. Un exemplu de model nemarginit este urmatorul: γ(h) = u h α, cu 0 < α < 2, si u este un numar real ce reprezinta intensitatea variatiei. Constanta α reprezinta curbura. Pentru α = 1 avem o variograma liniara; pentru 0 < α < 1 avem o variograma concava si pentru α > 1 avem o variograma convexa. Exista o clasa de modele de variograma teoretica care garanteaza existenta unei solutii unice. Acestea se numesc modele valide de variograma si sunt urmatoarele:
75 Geostatistica [Dr. Iulian Stoleriu] 74 modelul exponential, pentru care γ(h) = c 1 e h ar, daca h > 0. modelul sferic, pentru care [ 3h c γ(h) = 2r 1 ( ) ] h 3, daca 0 < h r; 2 r c, daca h > r. modelul Gaussian, pentru care ( ) 1 h 2 γ(h) = c 1 e a r, daca h > 0. Figura 11.3: Modele valide de variograma Aici, am notat c = s n, s = sill, n = nugget si a este o constanta folosita cu diferite valori in carti. O valoare des folosita este a = 1/3. Alte modele de variograma: modelul liniar marginit, folosit doar pentru variatii intr-o singura dimensiune. Variograma corespunzatoare este: ( ) h c, daca 0 < h r; γ(h) = r c, daca h > r. modelul circular, pentru care [ c 1 2 ( ) h γ(h) = π arccos + 2h ] 1 h2 r πr r 2, daca 0 < h r; c, daca h > r. modelul pentasferic, pentru care [ c γ(h) = modelul cubic, pentru care [ c 7 γ(h) = modele compuse; 15 h 8 r 5 4 ( ) h 2 35 r 4 ( ) h r 8 ( ) ] h 5 r, daca 0 < h r; c, daca h > r. ( ) h r 2 ( ) h 5 3 r 4 ( ) ] h 7 r, daca 0 < h r; c, daca h > r.
76 Geostatistica [Dr. Iulian Stoleriu] 75 Acestea pot compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand avem multe date si variogramele par a mai complexe. Sunt folosite in special atunci cand variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic, modelul dublu exponential etc. Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grac alaturat) este: γ(h) = c 0 + c 1 e h ar, daca h > 0. Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un model nugget) desenat in al doilea grac, variograma (cea desenata cu albastru) este: [ 3h c 0 + c 1 1 ( ) ] [ 3 h 3h + c 2 1 ( ) ] 3 h, 0 < h r 1 ; 2r 1 2 r 1 2r 2 2 r [ 2 γ(h) = 3h c 0 + c 1 1 ( ) ] 3 h, r 1 < h r 2 ; 2r 1 2 r 1 c 1 + c 2, h > r 2. Figura 11.4: Modele compuse modelul pure nugget, pentru care γ(h) = { 0, daca h = 0; c, daca h > 0. Este modelul desenat in Figura 11.1 (b). modele cu functii oscilante (vezi Figura 11.1 (d)), e.g.: ( γ(h) = c 1 sin h ). h 11.4 Estimator pentru variograma In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima variograma procedand astfel.
77 Geostatistica [Dr. Iulian Stoleriu] 76 Presupunem ca valorile masurate (x 1, x 2,... x n ): z 1 = z(x 1 ), z 2 = z(x 2 ),..., z n = z(x n ). orice pereche de locatii (x i, x j ) (exista n(n 1) 2 astfel de perechi), se calculeaza (semi)varianµele: γ(x i, x j ) = 1 2 [z i z j ] 2. Reprezentarea graca a acestora in functie de lag se numeste norul variogramei. Deoarece este dicil (daca nu imposibil) de examinat variatia spatiala din aceasta reprezentare, se va face o medie a tuturor variantelor pentru ecare valoare de lag h, obtinandu-se variograma empirica. Figura 11.5: Semivarianµele in functie de lag. (norul variogramei) Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi asa-numitele h scattergrame. Acestea sunt reprezentari grace ale valorilor z(x + h) versus z(x) (vezi Figura 11.6). Pentru un nivel de lag h, calculam Figura 11.6: Exemple de h scattergrame γ(h) = 1 2 N(h) (i,j) N(h) [z i z j ] 2, (11.1)
78 Geostatistica [Dr. Iulian Stoleriu] 77 unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag, x i x j = h si N(h) este numarul acestor perechi. In general, valoarea lui h este admisa cu o anumita toleranta. Pentru ecare nivel de lag h, valorile γ(h) le scriem in ordine crescatoare, obtinand astfel variograma empirica (sau variograma experimentala). Formula (11.1) este cunoscuta sub numele de estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron). Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este ergodic, atunci γ(h) γ(h) cand n. Un analist nu poate trage concluzii despre variabilitatea spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot prezise doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging pentru predictie Pasi in estimarea variogramei Constructia unei variograme presupune urmatorii pasi: Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin 30 de perechi (x i, x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa e mai mic decat jumatate din range-ul datelor observate. Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea clasei h stabilite. Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala; Stabilirea unui unghi si determinarea unei tolerante pentru unghi; Figura 11.7: Construirea variogramei experimentale Pentru un h xat si pentru ecare pereche de noduri (x, x + h) ale retelei de locatii, calculam valoarea 1 γ(h) = [Z(x) Z(x + h)] 2, 2 N(h) (x, x+h) Pentru toate valorile lui h, sa spunem ca acestea sunt h 1, h 2,..., h m, vom obtine valorile corespunzatoare γ(h 1 ), γ(h 2 ),..., γ(h m ). Reprezentam valorile (h i, γ(h i )) intr-un grac si obtinem astfel variograma experimentala (empirica). Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se astfel o noua variograma.
79 Geostatistica [Dr. Iulian Stoleriu] 78 Figura 11.8: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie) Exemplu: Variograma pentru o singura dimensiune spatiala Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta. Presupunem ca locatiile masuratorilor, x 1, x 2,..., x n, sunt cele din Figura 11.9 (a). Cerculetele goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 11.9 (b), (c) si (d) arata cum se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula 11.1 devine: γ(h) = n h 1 [z i z i+h ] 2. (11.2) 2(n h) Pentru h = 1, calculam valoarea γ(1) pentru toate perechile care se aa la o distanta de o lungime, folosind formula Similar, pentru h = 2, 3,..., n, calculam valoarile γ(2), γ(3),..., γ(n), pentru toate perechile care se aa la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lungimi. Reprezentam grac valorile γ(1), γ(2),..., γ(n) intr-un grac, obtinand astfel variograma experimentala 1-dimesionala.
80 Geostatistica [Dr. Iulian Stoleriu] 79 Figura 11.9: Variograma experimentala 1 dimensionala (cerculetele goale sunt locatii neselectate) 11.6 Sfaturi practice pentru construirea unei variograme Priviti in ansamblu datele observate. Pot aparea unele erori de masurare, virgule omise, alte tipuri de date etc; Observati orice tip de clustere in date. In caz ca sunt prezente, trebuie indepartate; In cazul in care datele par a nu observatii normale, o transformare a lor ar necesara (e.g., logaritmare); Variograma ar trebui determinata in cel putin 3 directii diferite; Detectati daca este prezent vreun trend in varianta experimentala. Daca este posibil, determinati variograma fara trend; Vericati prezenta izotropiei Indicatorul Akaike Tendinta unui analist este de a crea modele statistice cat mai apropiate de datele observate. Pentru a realiza acest deziderat, se poate folosi, spre exemplu, metoda celor mai mici patrate. Daca modelul este prea simplist (modelul contine putini parametri necunoscuti), rezultatul poate unul nesatisfacator. De aceea, de multe ori in practica suntem tentati sa introducem noi parametri in model, imbunatatind considerabil apropierea datelor de modelul teoretic. Insa, odata cu cresterea numarului de parametri, apare problema urmatoare: modelul astfel obtinut va avea performante foarte slabe in a face predictii. Un model prea complex va memora valorile caracteristicii in locatiile observate pentru a le reproduce cu precizie, insa nu va avea capabilitati de a prezice valori pentru date neobservate, neind antrenat sa o faca. Daca modelul ar fost mai putin complex, s-ar folosit de valorile observate pentru a prezice eventuale valori pentru variabila cercetata. Indicatorul Akaike realizeaza un compromis intre complexitatea unui model (care, de obicei, este reprezentata de numarul de parametri; mai multi parametri implica un model mai complex) si cea mai buna potrivire a modelului (determinata de metoda celor mai mici patrate). Acest indicator se deneste astfel: AIK = 2p 2 ln L, (11.3)
81 Geostatistica [Dr. Iulian Stoleriu] 80 unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati. Un estimator pentru indicele teoretic AIK este urmatorul: { ( ) } 2π AIK = 2p + 2 ln(mse) + n ln + n + 2, (11.4) n unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproximare (mean squared error) Metode de estimare a variogramei teoretice Pentru a stabili un model teoretic de variograma care se potriveste cel mai bine datelor masurate, este nevoie de a estima parametrii modelului teoretic. Spre exemplu, daca dorim sa determinam o variograma teoretica exponentiala, atunci avem de estimat 2 parametri, si anume: c (lungimea de variatie) si r (range). In cazul in care modelul include si o valoare nugget, atunci mai avem, in plus, un parametru de determinat, si anume c 0. Exista doua metode uzuale folosite in estimarea acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate. In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel: determinati acea valoare pentru vectorul de parametri, θ, care este solutia problemei de optim: min θ {[γ(h i, θ) γ(h i )] 2 }. i Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de parametri, θ care este solutia problemei de optim: min θ i {[γ(h i, θ) γ(h i )] 2 }, Var( γ(h i )) unde Astfel, ponderile sunt Var( γ(h)) 2 N(h) (γ(h, θ))2. w i = 1 Var( γ(h i )) N(h i) 2(γ(h i, θ)) Anizotropia In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de coordonate carteziene.
82 Geostatistica [Dr. Iulian Stoleriu] 81 Figura 11.10: Directii spatiale diferite Figura 11.11: Variograme pentru directii diferite 12 Kriging Introducere Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze proprietatile unor anumite variabile are o innitate de locatii. Masuratorile pe care acestea le poate efectua sunt in numar nit. De fapt, din consideratii practice si economice, el va considera doar cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori. Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige, nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la uctuatiile variabilei. Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal, kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian etc. Metoda generala de kriging este urmatoarea. Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune poate 1, 2 sau 3 dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile x 1, x 2,..., x n ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z intr-o locatie generica din R, sa zicem x 0, este: Ẑ(x 0 ) = λ i Z(x i ), (12.1) unde λ i sunt ponderile ce trebuie determinate.
83 Geostatistica [Dr. Iulian Stoleriu] Kriging simplu Este cea mai restrictiva metoda kriging. In cazul unei metode de interpolare geostatistica de tip kriging simplu se fac urmatoarele presupuneri relativ la variabila Z: valorile observate formeaza o realizare partiala a procesului aleator generat de Z(x). variabila Z(x) se considera a stationara de ordinul al doilea (slab stationara), i.e., E(Z(x)) = µ si cov(z(x), Z(x + h)) = C(h), pentru orice locatie x din R. valoarea constanta µ si covarianta C(h) sunt presupuse a cunoscute a priori. Predictiile metodei kriging simplu sunt bazate pe urmatorul model de camp aleator: Z(x) = µ + ɛ(x), (12.2) unde µ este o constanta cunoscuta si ɛ(x) este partea aleatoare a variabilei, reprezentand eroarea de aproximare a variabilei cu valoarea µ. Aceasta eroare este presupusa a normala, de medie 0. Figura 12.1: Variabila Z(x) pentru kriging simplu In cazul unui kriging simplu, se prezice valoarea variabilei Z in locatia necunoscuta x 0 folosind relatia: Ẑ SK (x 0 ) = µ + λ i (Z(x i ) µ), (12.3) unde λ i sunt ponderile asociate erorilor masuratorilor obtinute in locatiile selectate. Putem rescrie relatia precedenta sub forma echivalenta: ( ) Ẑ SK (x 0 ) = λ i Z(x i ) + 1 λ i µ. Pentru simplitate, putem presupune ca media cunoscuta este µ = 0. In caz ca aceasta este diferita de zero, efectuam calculele pentru µ = 0, obtinem valoarea prezisa, dupa care adaugam µ la nal. Obtinem ca Ẑ SK (x 0 ) = λ i Z(x i ). (12.4)
84 Geostatistica [Dr. Iulian Stoleriu] 83 Vom determina ponderile λ i astfel incat sa minimizeze varianta estimatorului ẐSK. Aceasta este: [ ] Var[ẐSK(x 0 )] = Var Z(x 0 ) λ i Z(x i ) = Var[Z(x 0 )] 2 = C(0) 2 λ j cov(z(x 0 ), Z(x j )) + j=1 λ j cov(z(x 0 ), Z(x j )) + j=1 j=1 j=1 λ i λ j cov(z(x i ), Z(x j )) λ i λ j cov(z(x i ), Z(x j )) Pentru a determina ponderile λ i ce realizeaza minimumul lui Var[ẐSK(x 0 )], se cauta punctele critice in raport cu λ i, adica rezolvam sistemul de ecuatii: λ j Var[ẐSK(x 0 )] = 0, pentru orice j = 1, 2,..., n. Se va obtine sistemul de ecuatii algebrice (n ecuatii cu n necunoscute): cov(z(x 0 ), Z(x j )) = λ i cov(z(x i ), Z(x j )), pentru orice j = 1, 2,..., n. (12.5) Cu solutiile λ SK i astfel obtinute, se estimeaza valoarea Z 0 folosind formula (12.4). Dispersia de kriging va data de: σsk(x 2 0 ) = C(0) λ SK i cov(z(x 0 ), Z(x i )). Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λ i depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging simplu, suma acestor ponderi nu este neaparat egala cu 1. Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja masuratori? Cand un punct x 0 in care prezicem valoarea variabilei se apropie de un punct x 0 + h in care am masurat deja valoarea lui Z, si daca variograma este fara nugget (i.e., este continua), atunci C(h) = cov(z(x 0 ), Z(x 0 + h)) h 0 cov(z(x 0 ), Z(x 0 )) = C(0) = 0. Astfel daca punctul x 0 este foarte apropiat de punctul x i (din selectie), putem aproxima cov(z 0, Z i ) prin cov(z 0, Z 0 ) = C(0). In acest caz, dispersia pentru kriging simplu devine ( ) σsk(x 2 0 ) = C(0) λ SK i C(0) = 1 λ SK i C(0) = 0. (12.6) Mai mult, lim x 0 x i Ẑ SK (x 0 ) = Z(x i ). In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate (i.e., Ẑ(x i ) = Z(x i ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale variabilei Z.
85 Geostatistica [Dr. Iulian Stoleriu] 84 Figura 12.2: 5 simulari ale variabilei Z(x) ce pastreaza cele 4 valori masurate initial Exerciµiu 12.1 (preluat din [10]) Pentru o variabila Z s-au observat valorile sale in locatiile precizate cu buline rosii in Figura 12.3 de mai jos. Pe baza acestor valori, se cere sa se prezica valoarea variabilei Z in locatia x 0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si γ(h) = 2000 (1 e h/250 ) pentru h > 0. (model exponential de variograma). Figura 12.4: Tabel cu date observate Figura 12.3: Locatii intr-un camp aleator Distantele d ij dintre locatiile masurate, calculate cu formula d ij = d(x i, x j ) = (x i1 x j1 ) 2 + (x i2 x j2 ) 2, sunt d 11 d 12 d 13 d 14 d 21 d 22 d 23 d 24 d 31 d 32 d 33 d 34 = d 41 d 42 d 43 d Distantele d 0i de la x 0 la x i sunt: [d 01, d 02, d 03, d 04 ] = [197.2, 219.3, 70.7, 180].
86 Geostatistica [Dr. Iulian Stoleriu] 85 Din formula γ(h) = C(0) C(h), gasim covariantele. Aici, C(0) = 2000 si C(x 0, x 1 ) = 2000e d 01/250 = 2000e 197.2/250 = , C(x 0, x 2 ) = 2000e d 02/250 = 2000e 219.3/250 = , C(x 1, x 2 ) = 2000e d 12/250 = 2000e 260.8/250 = Sistemul de ecuatii (12.5) care determina ponderile λ i devine: λ 1 C(x 1, x 1 ) + λ 2 C(x 2, x 1 ) + λ 3 C(x 3, x 1 ) + λ 4 C(x 4, x 1 ) = C(x 0, x 1 ); λ 1 C(x 1, x 2 ) + λ 2 C(x 2, x 2 ) + λ 3 C(x 3, x 2 ) + λ 4 C(x 4, x 2 ) = C(x 0, x 2 ); λ 1 C(x 1, x 3 ) + λ 2 C(x 2, x 3 ) + λ 3 C(x 3, x 3 ) + λ 4 C(x 4, x 3 ) = C(x 0, x 3 ); λ 1 C(x 1, x 4 ) + λ 2 C(x 2, x 4 ) + λ 3 C(x 3, x 4 ) + λ 4 C(x 4, x 4 ) = C(x 0, x 4 ). Inlocuind valorile covariantelor, obtinem: Dupa rezolvarea sistemului, obtinem ponderile: 2000λ λ λ λ 4 = ; λ λ λ λ 4 = ; λ λ λ λ 4 = ; λ λ λ λ 4 = etc. λ SK 1 = , λ SK 2 = , λ SK 3 = , λ SK 4 = Folosind formula (12.2), determinam estimarea valorii lui Z in x 0 : ẑ SK (x 0 ) = µ + λ SK 1 (z(x 1 ) µ) + λ SK 2 (z(x 2 ) µ) + λ SK 3 (z(x 3 ) µ) + λ SK 4 (z(x 4 ) µ) = (40 110) ( ) (90 110) ( ) = Dispersia estimatorului in acest punct poate calculata cu formula (12.6). Obtinem: σ 2 SK(x 0 ) = C(0) λ SK i cov(z(x 0 ), Z(x i )) = = In cazul in care valoarea µ din formula (12.2) nu este cunoscuta, avem doua posibilitati de a prezice valorile variabilei Z in celelalte valori decat cele masurate: Estimam valoarea µ pe baza observatiilor prin µ = z i, apoi folosim metoda kriging simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor z i in prezicerea lui µ. Folosim o alta metoda de kriging, numita kriging ordinar.
87 Geostatistica [Dr. Iulian Stoleriu] Kriging ordinar Este cea mai uzuala metoda de kriging (interpolare geospatiala). In cazul unui kriging ordinar, campul aleator este considerat a tot de forma (12.2), insa de aceasta data constanta µ este necunoscuta si va trebui estimata. Valoarea prezisa a lui Z in x 0 este Ẑ OK (x 0 ) = λ i Z(x i ), (12.7) unde ponderile λ i satisfac constrangerea λ i = 1. Aceasta constrangere asigura nedeplasarea estimatorului ẐOK, in sensul ca valoarea asteptata este E[Ẑ(x 0) Z(x 0 )] = 0. Dispersia estimatorului este: [ ) ] 2 ] Var[ẐOK(x 0 )] = E (ẐOK (x 0 ) Z(x 0 ) = Var [ẐOK (x 0 ) Z(x 0 ) [ ] = Var λ i Z(x i ) Z(x 0 ) = Var[Z(x 0 )] 2 λ }{{} i cov(z(x 0 ), Z(x i )) + = C(0) = 2 λ i γ(x 0, x i ) λ i λ j γ(x i, x j ), j=1 j=1 λ i λ j cov(z(x i ), Z(x j )) unde γ(x i, x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile x i si x j si γ(x i, x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia x i si valoarea lui Z in locatia de estimat x 0. Scopul este de a determina ponderile λ i ce realizeaza minimul lui Var[ẐOK(x 0 )] cu constrangerea λ i = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia ( ) F (α, λ i ) = Var[ẐOK(x 0 )] + α λ i 1, unde α este o constanta ce urmeaza a determinata, numita multiplicator Lagrange. Se considera sistemul format din anularea derivatelor functiei F (α, λ i ) in raport cu α si λ i, i.e., F (α, λ i ) λ 1 = 0; F (α, λ i ) = λ ; F (α, λ i ) λ n = 0; F (α, λ i ) α = 0.
88 Geostatistica [Dr. Iulian Stoleriu] 87 Vom obtine sistemul : cov(z(x 0 ), Z(x j )) = λ i cov(z(x i ), Z(x j )) + α, pentru orice j = 1, 2,..., n. (12.8) λ i = 1. (12.9) Aceste sistem de n + 1 ecuatii si n + 1 necunoscute, si anume λ 1, λ 2,..., λ n, α. Solutiile λ OK i ale acestui sistem sunt ponderile cautate. Folosind aceste ponderi, determinam estimaa valorii lui Z in x 0 prin: Ẑ OK (x 0 ) = λ OK i Z(x i ). Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are formula: Observatii: σ 2 OK(x 0 ) = C(0) λ OK i cov(z(x 0 ), Z(x i )) α. (12.10) Ponderile λ OK i vor avea valori mai mari pentru punctele apropiate lui x 0. In general, cele mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii lui Z in x 0, iar urmatoarele 10 puncte invecinate cu cca 20%. In general, σ 2 OK (x 0) este un pic mai mare decat σ 2 SK (x 0) din cauza incertitudinii legate de valoarea reala a lui µ. Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce la o crestere a dispersiei pentru valorile prezise prin kriging. Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general ponderi mai mari decat cele adunate in palcuri (clustere). Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative. Am vazut ca, pentru un punct x 0, doar o multime mica de puncte vecine vor avea ponderi nenule semnicative, restul ponderilor ind aproape egale cu 0. Din acest motiv, am putea reduce sistemul de kriging (implicit formula (12.7) doar la punctele vecine. Daca numarul acestor puncte vecine este semnicativ mai mic decat n, atunci procedeul numeric de calcul al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare, ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o multime mica de vecini ai lui x 0. Pentru a determina vecinatatea lui x 0 pentru care este practic sa calculam ponderile, se poate proceda astfel: Pentru o variograma marginita si date dense in jurul lui x 0, aceasta vecinatate poate avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest range aproape ca nu sunt corelate cu x 0. Daca datele sunt rareate, atunci punctele indepartate pot avea ponderi importante, asa ca ar necesara o vecinatate care sa le includa.
89 Geostatistica [Dr. Iulian Stoleriu] 88 Pentru un efect nugget mare, punctele indepartate vor avea ponderi semnicative, deci vecinatatea lui x 0 ar trebui sa le includa. Pentru o retea neregulata de date selectate, numarul minim de puncte din vecinatatea unui x 0 este 3 si numarul maxim nu ar trebui sa depaseasca 25. Daca datele din selectie sunt foarte neregulate, atunci este utila impartirea spatiului din jurul lui x 0 in octanti si sa e alese cele mai apropiate 2 puncte din ecare octant (vezi Figura 12.5). Figura 12.5: Impartirea in octanti pentru determinarea vecinilor Exerciµiu 12.2 Folosind metoda de interpolare geostatistica kriging ordinar, determinati o predictie si dispersia acesteia pentru valoarea in locatia x 0 din Exercitiul Valorile pentru distante sunt aceleasi ca in Exercitiul Sistemul de ecuatii (12.8)&(12.9) care determina ponderile λ i si multiplicatorul Lagrange α este: λ 1 C(x 1, x 1 ) + λ 2 C(x 2, x 1 ) + λ 3 C(x 3, x 1 ) + λ 4 C(x 4, x 1 ) + λ 1 = C(x 0, x 1 ); λ 1 C(x 1, x 2 ) + λ 2 C(x 2, x 2 ) + λ 3 C(x 3, x 2 ) + λ 4 C(x 4, x 2 ) + λ 2 = C(x 0, x 2 ); λ 1 C(x 1, x 3 ) + λ 2 C(x 2, x 3 ) + λ 3 C(x 3, x 3 ) + λ 4 C(x 4, x 3 ) + λ 3 = C(x 0, x 3 ); λ 1 C(x 1, x 4 ) + λ 2 C(x 2, x 4 ) + λ 3 C(x 3, x 4 ) + λ 4 C(x 4, x 4 ) + λ 4 = C(x 0, x 4 ); Inlocuind valorile covariantelor, obtinem: λ 1 + λ 2 + λ 3 + λ 4 = λ λ λ λ 4 + α = ; λ λ λ λ 4 + α = ; λ λ λ λ 4 + α = ; λ λ λ λ 4 + α = ; λ 1 + λ 2 + λ 3 + λ 4 = 1. Dupa rezolvarea sistemului, obtinem ponderile λ i si multiplicatorul Lagrange α: λ OK 1 = , λ OK 2 = , λ OK 3 = , λ OK 4 = , α = Folosind formula (12.7), determinam estimarea valorii lui Z in x 0 : ẑ OK (x 0 ) = λ OK 1 z(x 1 ) + λ OK 2 z(x 2 ) + λ OK 3 z(x 3 ) + λ OK 4 z(x 4 ) = = Dispersia estimatorului in acest punct poate calculata cu formula (12.10). Obtinem: σok(x 2 0 ) = C(0) λ OK i cov(z(x 0 ), Z(x i )) α = =
90 Geostatistica [Dr. Iulian Stoleriu] Kriging lognormal Daca datele observate z(x 1 ), z(x 2 ),..., z(x n ) sunt pozitive dar nu par a normale (acest fapt se poate observa dintr-un indice de skewness mai mare decat 1), atunci o practica utila este logaritmarea datelor. Vom obtine astfel setul de date y(x 1 ), y(x 2 ),..., y(x n ), cu y(x i ) = ln(z(x i )). Cu alte cuvinte, in loc sa analizam variabila initiala Z(x), vom lucra cu variabila transformata Y (x) = ln Z(x). Daca presupunem ca procesul aleator generat de Y (x) este stationar de ordinul al doilea (slab stationar), atunci putem aplica metodele anterioare (kriging simplu sau kriging ordinar) pentru valorile transformate. Vom obtine astfel valori prezise pentru Y in locatiile neconsiderate in selectie si dispersii pentru aceste valori. Dupa aceasta, aceste valori se vor transforma inapoi in valori prezise pentru variabila originala, Z(x). Sa notam prin ŶSK(x 0 ) si σ 2 SK(x 0 ) estimatori punctuali pentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging simplu in x 0. Similar, notam prin ŶOK(x 0 ) si σ 2 OK(x 0 ) estimatori punctuali pentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging ordinar in x 0. Atunci, estimatorii corespunzatori pentru variabila Z sunt: Ẑ SK (x 0 ) = eŷsk(x 0 )+ 1 2 σ 2 SK(x 0 ) pentru kriging simplu si Ẑ OK (x 0 ) = eŷok(x 0 )+ 1 2 σ 2 OK(x 0 ) α(x 0 ) pentru kriging ordinar, unde α(x 0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate estimata doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este: Var SK (x 0 ) = µ 2 e σ 2 SK(x 0 ) [e σ 2 SK(x 0 ) 1] Kriging universal (sau kriging cu drift) Este posibil ca valoarea µ din relatia (12.2) sa nu e nici cunoscuta, nici constanta, indicand prezenta unui trend (sau drift). In acest caz, Z(x) = u(x) + ɛ(x), (12.11) unde u(x) este o functie determinista si ɛ(x) este partea aleatoare a variabilei, reprezentand eroarea de aproximare a variabilei cu valoarea µ. Figura 12.6: Variabila cu trend neliniar Aceasta eroare este presupusa a normala, de medie 0 si variograma γ(h). Cantitatea ɛ(x) = Z(x) u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de coordonatele geograce, de forma: m u(x) = β j f j (x), j=0 unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate estimat pe baza observatiilor z(x 1 ), z(x 2 ),..., z(x n ). Spre exemplu, un trend liniar 2 dimensional arata de forma u(x) = β 0 + β 1 x 1 + β 2 x 2.
91 Geostatistica [Dr. Iulian Stoleriu] 90 Un trend neliniar parabolic 1 dimensional care ar putea un model pentru cel din Figura 12.6 este de forma u(x) = β 0 + β 1 x + β 2 x 2. Coecientii β 0, β 1, β 2 pot obtinuti prin metoda celor mai mici patrate (regresie liniara multiple). In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x 0 prin cu λ i vericand constrangerea Ẑ UK (x 0 ) = λ i Z(x i ), λ i = 1. Valoarea medie a acestui estimator este E[ẐUK(x 0 ]) = Conditia de nedeplasare a estimatorului este: j=0 m λ i β j f j (x i ) λ i f j (x i ) = f j (x 0 ), pentru orice j = 0, 1, 2,..., m. Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λ UK i β j. Astfel, un estimator pentru valoarea lui Z in x 0 va iar dispersia acestui estimator este Ẑ UK (x 0 ) = Var UK (x 0 ) = C(0) λ UK i Z(x i ), λ i C(x 0, x i ) m β j f j (x 0 ). j=0 si parametrii necunoscuti 12.5 Kriging indicator Aceasta medota de kriging este folosita pentru variabilele de tip binar (Bernoulli), adica acele variabile discrete care pot lua doar doua valori: 1 (prezenta) sau 0 (absenta). Este utila in practica atunci cand pentru variabila de interes se doreste sa se estimeze probabilitatea ca aceasta sa depaseeasca o anumita valoare prag, notata aici prin z c. Spre exemplu, am dori sa determinam probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul critic z c = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba o valoare ph sub o valoare critica. Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare { 1 daca Z(x) z c ; χ zc (x) = 0 daca Z(x) > z c. Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic z c, care este totuna cu functia de repartitie a acestei variabile in valoarea z c. Matematic, scriem astfel: E[χ zc (x)] = P (Z(x) z c ) = F Z(x) (z c ).
92 Geostatistica [Dr. Iulian Stoleriu] 91 Pentru variabila indicatoare se poate estima variograma teoretica γ zc (h) = 1 2 E [ (χ zc (x) χ zc (x + h)) 2] pe baza unei variograme experimentale: γ zc (h) = 1 2 N(h) N(h) [ (χ zc (x i ) χ zc (x i + h)) 2]. Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O metoda de kriging indicator bazata pe n observatii {χ zc (x i )}, n are la baza formula de estimare: χ zc (x 0 ) = λ i χ zc (x i ). (12.12) Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot obtinute ca solutii ale sistemului de n ecuatii si n necunoscute: λ i γ zc (x i, x j ) = γ zc (x 0, x j ) pentro orice j = 1, 2,..., n, unde γ zc (x i, x j ) sunt semivariantele calculate in punctele x i si x j. Dupa ce se determina ponderile λ IK i, se estimeaza valoarea χ zc (x 0 ) = λ IK i χ zc (x i ). Valoarea prezisa χ zc (x 0 ) va o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele observate, variabila Z(x) ia valori sub pragul critic z c. Matematic, scriem ca χ zc (x 0 ) = P ( { Z(x) z c z i, i = 1, n } ). 13 Cokriging Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele sa e masurate in aceleasi locatii, insa ar indicat sa e un minim de valori observate perechi in aceleasi locatii din regiune de interes. Aceasta metoda poate utila atunci cand una dintre variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile (secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai variabile. Presupunem ca Z 1 (x), Z 2 (x),..., Z p (x) sunt p variabile ce se doresc a masurate pentru un acelasi domeniu. Putem crea matricea aleatoare: Z(x) = [Z 1 (x), Z 2 (x),..., Z p (x)]. Vom nota prin Λ i matricea ponderilor corespunzatoare ecarei valori a ecarei variabile. O vom scrie sub forma: λ i 11 λ i λ i 1p Λ i = λ i 21 λ i λ i 2p λ i 41 λ i λ i pp
93 Geostatistica [Dr. Iulian Stoleriu] 92 Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate) ponderile Λ i pentru estimatorul: Ẑ CK (x 0 ) = Λ i Z(x i ), cu constrangerea Λ i = I n matricea identitate de ordin n. Modelul cokriging va furniza un numar de p estimatori liniari in x 0, cate unul pentru ecare variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu metoda kriging ordinara, insa executata pentru p variabile simultan. 14 Cross-validare (validarea incrucisata) Cross-validarea este o metoda de vericare sau de a alege dintre mai multe modele de kriging pentru aceleasi date observate. Precizam mai jos detaliile validarii incrucisate: Se calculeaza variograma experimentala si apoi se potrivesc diverse variograme teoretice potrivite; Se scoate un punct dintre cele n initiale si se estimeaza valoarea in acest punct pe baza celorlalte n 1 puncte. Aceasta valoare prezisa este comparata cu valoarea masurata initial. Se repeta procedura pentru toate valorile observate. Diagnosticarea se face e prin grace sau prin masurarea erorilor de predictie. Gracele sunt de forma valori prezise versus valori masurate. Pentru o predictie cat mai buna, valorile prezise trebuie sa e cat mai apropiate de cele masurate, aceasta observandu-se in grac daca punctele rosii sunt apropiate de dreapta 1:1. Pentru a face un diagnostic numeric al preciziei estimarii, se folosesc urmatoarele masuri ale erorilor de interpolare: Eroarea medie (Mean error in ArcGIS): ME = 1 n [z(x i ) ẑ(x i )]. Eroarea medie standardizata (Mean Standardized error in ArcGIS): SME = 1 n [z(x i ) ẑ(x i )]. σ(x i ) Eroarea medie patratica: MSE = 1 n [z(x i ) ẑ(x i )] 2. Figura 14.1: Compararea a doua metode kriging.
94 Geostatistica [Dr. Iulian Stoleriu] 93 Radacina mediei erorilor patratice (Root-Mean-Square error in ArcGIS): RMSE = 1 [z(x i ) ẑ(x i )] n 2. Eroarea standard medie (Average Standard error in ArcGIS): σ(x i ) ASE =. n Radacina mediei erorilor patratice standardizate (Root-Mean-Square Standardized error in ArcGIS): RMSSE = 1 [ ] z(xi ) ẑ(x i ) 2. n σ(x i ) Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa e cat mai apropiate de valoarea 0, eroarea RMSSE va trebui sa e apropiate de valoarea 1, iar erorile RMSE si ASE sa e similare. Figura 14.1 contine doua grace pentru doua metode de interpolare kriging ordinar; prima metoda este fara trend iar a doua cu trend. Fiecare gura reprezinta valorile prezise vs. valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa e cat mai apropiate de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna, ne uitam la erorile asate si cautam metoda ce da erorile cele mai mici.
95 Geostatistica [Dr. Iulian Stoleriu] 94 Figura 14.2: Etape pentru interpolarea prin kriging
96 Geostatistica [Dr. Iulian Stoleriu] Simulare stochastica Dupa cum am vazut mai sus, metodele kriging sunt utilizate pentru a estima valorile posibile ale unei variabile in locatiile neobservate. Estimarile obtinute sunt optimizate astfel incat in acele locatii variantele sunt minime. Totusi, nu este nicio garantie ca o harta obtinuta printr-o metoda kriging va avea aceeasi variatie (sau variograma) ca si datele observate initial. Daca se doreste a construi o harta care sa pastreze intocmai caracteristicile datelor observate, atunci trebuie considerate metode alternative la metodele kriging. O astfel de metoda este simularea stochastica. Simularea stochastica ofera posibilitatea de a crea valorile uneia sau mai multor variabile care sa aiba aceleasi caracteristici ca si datele observate in realitate. Variabilele pentru care putem obtine simulari pot atat discrete cat si continue. Presupunem ca {z(x i )},n sunt valorile observate pentru variabila Z(x). Dupa cum am discutat anterior, putem privi Z(x) ca ind un proces stochastic. Daca acest proces este stationar de ordinul al doilea, atunci el poate descris prin media si functia de covarianta. Acesti parametri ii putem estima cu statistici specice obtinute pe baza datelor observate. Principiul simularii stochastice este simularea pe calculator de valori posibile pentru variabila Z(x) ce au media ³i functia de covarianta stabilite. Se pot astfel crea oricate (o innitate) simulari se doreste, toate realizarile avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de acuratetea statistica a predictiilor. In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor prezise. Simularile stochastice pot facute in doua moduri: neconditionate si conditionate. O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat faptul ca media si o functia de covarianta a acestor valori sa e cea specicat a priori. O simulare stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca valorile observate pentru variabila aleatoare sa e pastrate in urma simularii. Cu alte cuvinte, o simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate, pe cand una neconditionata nu are aceasta cerinta. In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo. Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta specicate. In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate, metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile observatiilor sa e pastrate, atunci metoda de simulare este cea potrivita. Exista mai multe tipuri de simulari stochastice, si anume: simulare gaussian secvenµial (ecare valoare este simulata secvential in concordanta cu functia sa de repartitie conditionata normala, care se determina in ecare locatie simulata); metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv denite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.); simulare annealing (bazata pe algoritmi de optimizare);
97 Geostatistica [Dr. Iulian Stoleriu] 96 metode orientate pe obiect; Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei sunt: Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea transformate in date normale standard; Se determina un model de variograma; Se formeaza un grid cu punctele in care urmeaza sa determinam simulari; Se determina ordinea (o secventa) locatiilor {x i } in care vom obtine simulari. Pentru ecare locatie x i se determina Ẑ(x i) si σ 2 K (x i) prin metoda kriging simpla. Apoi, se va genera aleator o valoare normala ce are media Ẑ(x i) si varianta σ 2 K (x i). Aceasta valoare simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori. Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior) pana ce toate valorile pentru punctele din grid au fost simulate. Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a determina simularile valorilor variabilei de interes.
98 Anexa 1 [Dr. Iulian Stoleriu] Anexa 1 Tabele cu cuantile pentru repartitii uzuale α z α Tabela 16.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul aseaza cuantila z α pentru care P (Z z α ) = α, unde Z N (0, 1). De remarcat faptul ca: z 1 α = z α. n \ α n \ α Tabela 16.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul aseaza cuantila t α, n pentru care P (Z t α, n ) = α, unde Z t(n). Daca n este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
99 Fournit les quantiles x p tels que P(X x p )= p pour X χ 2 n Anexa 1 [Dr. Iulian Stoleriu] 98 n / p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995 n 1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88 2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60 3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84 4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86 5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75 6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55 7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28 8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95 9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23, ,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25, ,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26, ,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28, ,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29, ,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31, ,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32, ,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34, ,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35, ,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37, ,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38, ,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40, ,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41, ,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42, ,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44, ,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45, ,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46, ,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48, ,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49, ,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50, ,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52, ,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53, ,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66, ,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79, ,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91, ,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104, ,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116, ,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128, ,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2 Tabela 16.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul aseaza cuantila χ 2 α, n pentru care P (Z χ 2 α, n) = α, unde Z χ 2 (n).
100 Anexa 2 [Dr. Iulian Stoleriu] Anexa 2 Figura 17.1: Exemplu de date statistice spatiale.
Metode iterative pentru probleme neliniare - contractii
Metode iterative pentru probleme neliniare - contractii Problemele neliniare sunt in general rezolvate prin metode iterative si analiza convergentei acestor metode este o problema importanta. 1 Contractii
(a) se numeşte derivata parţială a funcţiei f în raport cu variabila x i în punctul a.
Definiţie Spunem că: i) funcţia f are derivată parţială în punctul a în raport cu variabila i dacă funcţia de o variabilă ( ) are derivată în punctul a în sens obişnuit (ca funcţie reală de o variabilă
Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate.
Curs 10 Funcţii reale de mai multe variabile reale. Limite şi continuitate. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Fie p, q N. Fie funcţia f : D R p R q. Avem următoarele
8 Intervale de încredere
8 Intervale de încredere În cursul anterior am determinat diverse estimări ˆ ale parametrului necunoscut al densităţii unei populaţii, folosind o selecţie 1 a acestei populaţii. În practică, valoarea calculată
[Iulian Stoleriu] Statistică Aplicată
[Iulian Stoleriu] Statistică Aplicată Statistică Aplicată (C1) 1 Elemente de Statistic teoretic (C1) Populaµie statistic O populaµie (colectivitate) statistic este o mulµime de elemente ce posed o trasatur
Curs 4 Serii de numere reale
Curs 4 Serii de numere reale Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Criteriul rădăcinii sau Criteriul lui Cauchy Teoremă (Criteriul rădăcinii) Fie x n o serie cu termeni
5. FUNCŢII IMPLICITE. EXTREME CONDIŢIONATE.
5 Eerciţii reolvate 5 UNCŢII IMPLICITE EXTREME CONDIŢIONATE Eerciţiul 5 Să se determine şi dacă () este o funcţie definită implicit de ecuaţia ( + ) ( + ) + Soluţie ie ( ) ( + ) ( + ) + ( )R Evident este
Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM 1 electronica.geniu.ro
Analiza în curent continuu a schemelor electronice Eugenie Posdărăscu - DCE SEM Seminar S ANALA ÎN CUENT CONTNUU A SCHEMELO ELECTONCE S. ntroducere Pentru a analiza în curent continuu o schemă electronică,
III. Serii absolut convergente. Serii semiconvergente. ii) semiconvergentă dacă este convergentă iar seria modulelor divergentă.
III. Serii absolut convergente. Serii semiconvergente. Definiţie. O serie a n se numeşte: i) absolut convergentă dacă seria modulelor a n este convergentă; ii) semiconvergentă dacă este convergentă iar
DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE
DISTANŢA DINTRE DOUĂ DREPTE NECOPLANARE ABSTRACT. Materialul prezintă o modalitate de a afla distanţa dintre două drepte necoplanare folosind volumul tetraedrului. Lecţia se adresează clasei a VIII-a Data:
Curs 1 Şiruri de numere reale
Bibliografie G. Chiorescu, Analiză matematică. Teorie şi probleme. Calcul diferenţial, Editura PIM, Iaşi, 2006. R. Luca-Tudorache, Analiză matematică, Editura Tehnopress, Iaşi, 2005. M. Nicolescu, N. Roşculeţ,
Curs 14 Funcţii implicite. Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi"
Curs 14 Funcţii implicite Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Fie F : D R 2 R o funcţie de două variabile şi fie ecuaţia F (x, y) = 0. (1) Problemă În ce condiţii ecuaţia
NOTIUNI DE BAZA IN STATISTICA
NOTIUNI DE BAZA IN STATISTICA INTRODUCERE SI DEFINITII A. PARAMETRI SI STATISTICI Parametru valoare sau caracteristica asociata unei populatii constante fixe notatie - litere grecesti: media populatiei
Statisticǎ - curs 3. 1 Seria de distribuţie a statisticilor de eşantioane 2. 2 Teorema limitǎ centralǎ 5. 3 O aplicaţie a teoremei limitǎ centralǎ 7
Statisticǎ - curs 3 Cuprins 1 Seria de distribuţie a statisticilor de eşantioane 2 2 Teorema limitǎ centralǎ 5 3 O aplicaţie a teoremei limitǎ centralǎ 7 4 Estimarea punctualǎ a unui parametru; intervalul
Iulian STOLERIU. Statistic Aplicat
Iulian STOLERIU Statistic Aplicat 1 Statistic Aplicat (Laborator 1) Organizarea ³i reprezentarea datelor statistice Scurt istoric Statistica este o ramur a ³tiinµelor ce se preocup de procesul de colectare
Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor X) functia f 1
Functii definitie proprietati grafic functii elementare A. Definitii proprietatile functiilor. Fiind date doua multimi X si Y spunem ca am definit o functie (aplicatie) pe X cu valori in Y daca fiecarui
Planul determinat de normală şi un punct Ecuaţia generală Plane paralele Unghi diedru Planul determinat de 3 puncte necoliniare
1 Planul în spaţiu Ecuaţia generală Plane paralele Unghi diedru 2 Ecuaţia generală Plane paralele Unghi diedru Fie reperul R(O, i, j, k ) în spaţiu. Numim normala a unui plan, un vector perpendicular pe
Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor
Functii definitie, proprietati, grafic, functii elementare A. Definitii, proprietatile functiilor. Fiind date doua multimi si spunem ca am definit o functie (aplicatie) pe cu valori in daca fiecarui element
MARCAREA REZISTOARELOR
1.2. MARCAREA REZISTOARELOR 1.2.1 MARCARE DIRECTĂ PRIN COD ALFANUMERIC. Acest cod este format din una sau mai multe cifre şi o literă. Litera poate fi plasată după grupul de cifre (situaţie în care valoarea
V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile
Metode de Optimizare Curs V.7. Condiţii necesare de optimalitate cazul funcţiilor diferenţiabile Propoziţie 7. (Fritz-John). Fie X o submulţime deschisă a lui R n, f:x R o funcţie de clasă C şi ϕ = (ϕ,ϕ
Metode de interpolare bazate pe diferenţe divizate
Metode de interpolare bazate pe diferenţe divizate Radu Trîmbiţaş 4 octombrie 2005 1 Forma Newton a polinomului de interpolare Lagrange Algoritmul nostru se bazează pe forma Newton a polinomului de interpolare
Subiecte Clasa a VIII-a
Subiecte lasa a VIII-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul
prin egalizarea histogramei
Lucrarea 4 Îmbunătăţirea imaginilor prin egalizarea histogramei BREVIAR TEORETIC Tehnicile de îmbunătăţire a imaginilor bazate pe calculul histogramei modifică histograma astfel încât aceasta să aibă o
Esalonul Redus pe Linii (ERL). Subspatii.
Seminarul 1 Esalonul Redus pe Linii (ERL). Subspatii. 1.1 Breviar teoretic 1.1.1 Esalonul Redus pe Linii (ERL) Definitia 1. O matrice A L R mxn este in forma de Esalon Redus pe Linii (ERL), daca indeplineste
Integrala nedefinită (primitive)
nedefinita nedefinită (primitive) nedefinita 2 nedefinita februarie 20 nedefinita.tabelul primitivelor Definiţia Fie f : J R, J R un interval. Funcţia F : J R se numeşte primitivă sau antiderivată a funcţiei
ESTIMAREA PARAMETRILOR STATISTICI. Călinici Tudor
ESTIMAREA PARAMETRILOR STATISTICI Călinici Tudor 1 Obiective educaţionale Înţelegerea procesului de estimare Însuşirea limbajului specific pentru inferenţa statistică Enumerarea estimatorilor fără bias
Seminar 5 Analiza stabilității sistemelor liniare
Seminar 5 Analiza stabilității sistemelor liniare Noțiuni teoretice Criteriul Hurwitz de analiză a stabilității sistemelor liniare În cazul sistemelor liniare, stabilitatea este o condiție de localizare
a n (ζ z 0 ) n. n=1 se numeste partea principala iar seria a n (z z 0 ) n se numeste partea
Serii Laurent Definitie. Se numeste serie Laurent o serie de forma Seria n= (z z 0 ) n regulata (tayloriana) = (z z n= 0 ) + n se numeste partea principala iar seria se numeste partea Sa presupunem ca,
Subiecte Clasa a VII-a
lasa a VII Lumina Math Intrebari Subiecte lasa a VII-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate
Asupra unei inegalităţi date la barajul OBMJ 2006
Asupra unei inegalităţi date la barajul OBMJ 006 Mircea Lascu şi Cezar Lupu La cel de-al cincilea baraj de Juniori din data de 0 mai 006 a fost dată următoarea inegalitate: Fie x, y, z trei numere reale
riptografie şi Securitate
riptografie şi Securitate - Prelegerea 12 - Scheme de criptare CCA sigure Adela Georgescu, Ruxandra F. Olimid Facultatea de Matematică şi Informatică Universitatea din Bucureşti Cuprins 1. Schemă de criptare
5 Statistica matematică
5 Statistica matematică Cuvântul statistică afostiniţial folosit pentru a desemna o colecţiededatedesprepopulaţie şi situaţia economică, date vitale pentru conducerea unui stat. Cu timpul, Statistica a
COLEGIUL NATIONAL CONSTANTIN CARABELLA TARGOVISTE. CONCURSUL JUDETEAN DE MATEMATICA CEZAR IVANESCU Editia a VI-a 26 februarie 2005.
SUBIECTUL Editia a VI-a 6 februarie 005 CLASA a V-a Fie A = x N 005 x 007 si B = y N y 003 005 3 3 a) Specificati cel mai mic element al multimii A si cel mai mare element al multimii B. b)stabiliti care
9 Testarea ipotezelor statistice
9 Testarea ipotezelor statistice Un test statistic constă în obţinerea unei deducţii bazată pe o selecţie din populaţie prin testarea unei anumite ipoteze (rezultată din experienţa anterioară, din observaţii,
5.5. REZOLVAREA CIRCUITELOR CU TRANZISTOARE BIPOLARE
5.5. A CIRCUITELOR CU TRANZISTOARE BIPOLARE PROBLEMA 1. În circuitul din figura 5.54 se cunosc valorile: μa a. Valoarea intensității curentului de colector I C. b. Valoarea tensiunii bază-emitor U BE.
Aplicaţii ale principiului I al termodinamicii la gazul ideal
Aplicaţii ale principiului I al termodinamicii la gazul ideal Principiul I al termodinamicii exprimă legea conservării şi energiei dintr-o formă în alta şi se exprimă prin relaţia: ΔUQ-L, unde: ΔU-variaţia
Seminariile Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reziduurilor
Facultatea de Matematică Calcul Integral şi Elemente de Analiă Complexă, Semestrul I Lector dr. Lucian MATICIUC Seminariile 9 20 Capitolul X. Integrale Curbilinii: Serii Laurent şi Teorema Reiduurilor.
SERII NUMERICE. Definiţia 3.1. Fie (a n ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0
SERII NUMERICE Definiţia 3.1. Fie ( ) n n0 (n 0 IN) un şir de numere reale şi (s n ) n n0 şirul definit prin: s n0 = 0, s n0 +1 = 0 + 0 +1, s n0 +2 = 0 + 0 +1 + 0 +2,.......................................
a. 11 % b. 12 % c. 13 % d. 14 %
1. Un motor termic funcţionează după ciclul termodinamic reprezentat în sistemul de coordonate V-T în figura alăturată. Motorul termic utilizează ca substanţă de lucru un mol de gaz ideal având exponentul
1.7. AMPLIFICATOARE DE PUTERE ÎN CLASA A ŞI AB
1.7. AMLFCATOARE DE UTERE ÎN CLASA A Ş AB 1.7.1 Amplificatoare în clasa A La amplificatoarele din clasa A, forma de undă a tensiunii de ieşire este aceeaşi ca a tensiunii de intrare, deci întreg semnalul
R R, f ( x) = x 7x+ 6. Determinați distanța dintre punctele de. B=, unde x și y sunt numere reale.
5p Determinați primul termen al progresiei geometrice ( b n ) n, știind că b 5 = 48 și b 8 = 84 5p Se consideră funcția f : intersecție a graficului funcției f cu aa O R R, f ( ) = 7+ 6 Determinați distanța
I3: PROBABILITǍŢI - notiţe de curs
I3: PROBABILITǍŢI - notiţe de curs Ştefan Balint, Eva Kaslik, Simina Mariş Cuprins Experienţǎ şi evenimente aleatoare 3 2 Eveniment sigur. Eveniment imposibil 3 3 Evenimente contrare 4 4 Evenimente compatibile.
I3: PROBABILITǍŢI - notiţe de curs
I3: PROBABILITǍŢI - notiţe de curs Ştefan Balint, Eva Kaslik, Simina Mariş Cuprins Experienţǎ şi evenimente aleatoare 3 2 Eveniment sigur. Eveniment imposibil 3 3 Evenimente contrare 4 4 Evenimente compatibile.
SEMINAR 14. Funcţii de mai multe variabile (continuare) ( = 1 z(x,y) x = 0. x = f. x + f. y = f. = x. = 1 y. y = x ( y = = 0
Facultatea de Hidrotehnică, Geodezie şi Ingineria Mediului Matematici Superioare, Semestrul I, Lector dr. Lucian MATICIUC SEMINAR 4 Funcţii de mai multe variabile continuare). Să se arate că funcţia z,
Criptosisteme cu cheie publică III
Criptosisteme cu cheie publică III Anul II Aprilie 2017 Problema rucsacului ( knapsack problem ) Considerăm un număr natural V > 0 şi o mulţime finită de numere naturale pozitive {v 0, v 1,..., v k 1 }.
CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2017 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii
Clasa a IX-a 1 x 1 a) Demonstrați inegalitatea 1, x (0, 1) x x b) Demonstrați că, dacă a 1, a,, a n (0, 1) astfel încât a 1 +a + +a n = 1, atunci: a +a 3 + +a n a1 +a 3 + +a n a1 +a + +a n 1 + + + < 1
5.4. MULTIPLEXOARE A 0 A 1 A 2
5.4. MULTIPLEXOARE Multiplexoarele (MUX) sunt circuite logice combinaţionale cu m intrări şi o singură ieşire, care permit transferul datelor de la una din intrări spre ieşirea unică. Selecţia intrării
7 Distribuţia normală
7 Distribuţia normală Distribuţia normală este cea mai importantă distribuţie continuă, deoarece în practică multe variabile aleatoare sunt variabile aleatoare normale, sunt aproximativ variabile aleatoare
POPULAŢIE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE
DATE NUMERICE POPULAŢIE DATE ALFANUMERICE NDIVID DATE ORDINALE EŞANTION DATE NOMINALE Cursul I Indicatori statistici Minim, maxim Media Deviaţia standard Mediana Cuartile Centile, decile Tabel de date
Sisteme diferenţiale liniare de ordinul 1
1 Metoda eliminării 2 Cazul valorilor proprii reale Cazul valorilor proprii nereale 3 Catedra de Matematică 2011 Forma generală a unui sistem liniar Considerăm sistemul y 1 (x) = a 11y 1 (x) + a 12 y 2
MATRICE. DETERMINAN I.
MATRICE DETERMINAN I ION CICU Abstract Materialul î³i propune o abordare strict la nivelul cerinµelor necesare rezolv rii problemelor care apar în subiectul II al examenului de bacalaureat M2 Pentru ceea
10. STABILIZATOAE DE TENSIUNE 10.1 STABILIZATOAE DE TENSIUNE CU TANZISTOAE BIPOLAE Stabilizatorul de tensiune cu tranzistor compară în permanenţă valoare tensiunii de ieşire (stabilizate) cu tensiunea
Definiţia generală Cazul 1. Elipsa şi hiperbola Cercul Cazul 2. Parabola Reprezentari parametrice ale conicelor Tangente la conice
1 Conice pe ecuaţii reduse 2 Conice pe ecuaţii reduse Definiţie Numim conica locul geometric al punctelor din plan pentru care raportul distantelor la un punct fix F şi la o dreaptă fixă (D) este o constantă
1. Distribuţiile teoretice 2. Intervalul de încredere pentru caracteristicile cantitative (medii) Histograma Nr. valori Nr. de clase de valori
1. Distribuţiile teoretice (diagramă de distribuţie, distribuţia normală sau gaussiană) 2. Intervalul de încredere pentru caracteristicile cantitative (medii) 1. Distribuţia constituie ansamblul tuturor
Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R. 4.1 Proprietăţi topologice ale lui R Puncte de acumulare
Capitolul 4 PROPRIETĂŢI TOPOLOGICE ŞI DE NUMĂRARE ALE LUI R În cele ce urmează, vom studia unele proprietăţi ale mulţimilor din R. Astfel, vom caracteriza locul" unui punct în cadrul unei mulţimi (în limba
Scoruri standard Curba normală (Gauss) M. Popa
Scoruri standard Curba normală (Gauss) M. Popa Scoruri standard cunoaştere evaluare, măsurare evaluare comparare (Gh. Zapan) comparare raportare la un sistem de referință Povestea Scufiței Roşii... 70
Variabile statistice. (clasificare, indicatori)
Variabile statistice (clasificare, indicatori) Definiţii caracteristică sau variabilă statistică proprietate în functie de care se cerceteaza o populatie statistica şi care, în general, poate fi măsurată,
Statistică descriptivă Distribuția normală Estimare. Călinici Tudor 2015
Statistică descriptivă Distribuția normală Estimare Călinici Tudor 2015 Obiective educaționale Enumerarea caracteristicilor distribuției normale Enumerarea principiilor inferenței statistice Calculul intervalului
Curs 2 Şiruri de numere reale
Curs 2 Şiruri de numere reale Facultatea de Hidrotehnică Universitatea Tehnică "Gh. Asachi" Iaşi 2014 Convergenţă şi mărginire Teoremă Orice şir convergent este mărginit. Demonstraţie Fie (x n ) n 0 un
EDITURA PARALELA 45 MATEMATICĂ DE EXCELENŢĂ. Clasa a X-a Ediţia a II-a, revizuită. pentru concursuri, olimpiade şi centre de excelenţă
Coordonatori DANA HEUBERGER NICOLAE MUŞUROIA Nicolae Muşuroia Gheorghe Boroica Vasile Pop Dana Heuberger Florin Bojor MATEMATICĂ DE EXCELENŢĂ pentru concursuri, olimpiade şi centre de excelenţă Clasa a
Valori limită privind SO2, NOx şi emisiile de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili
Anexa 2.6.2-1 SO2, NOx şi de praf rezultate din operarea LPC în funcţie de diferite tipuri de combustibili de bioxid de sulf combustibil solid (mg/nm 3 ), conţinut de O 2 de 6% în gazele de ardere, pentru
Aparate de măsurat. Măsurări electronice Rezumatul cursului 2. MEE - prof. dr. ing. Ioan D. Oltean 1
Aparate de măsurat Măsurări electronice Rezumatul cursului 2 MEE - prof. dr. ing. Ioan D. Oltean 1 1. Aparate cu instrument magnetoelectric 2. Ampermetre şi voltmetre 3. Ohmetre cu instrument magnetoelectric
Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 5 16 martie 2 011
1.0.011 STATISTICA Masurarea variabilitatii Indicatorii variaţiei(împrăştierii) lectia 16 martie 011 al.isaic-maniu www.amaniu.ase.ro http://www.ase.ro/ase/studenti/inde.asp?itemfisiere&id Observati doua
Ecuaţia generală Probleme de tangenţă Sfera prin 4 puncte necoplanare. Elipsoidul Hiperboloizi Paraboloizi Conul Cilindrul. 1 Sfera.
pe ecuaţii generale 1 Sfera Ecuaţia generală Probleme de tangenţă 2 pe ecuaţii generale Sfera pe ecuaţii generale Ecuaţia generală Probleme de tangenţă Numim sferă locul geometric al punctelor din spaţiu
Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane
Subspatii ane Lectia VI Structura de spatiu an E 3. Dreapta si planul ca subspatii ane Oana Constantinescu Oana Constantinescu Lectia VI Subspatii ane Table of Contents 1 Structura de spatiu an E 3 2 Subspatii
Problema a II - a (10 puncte) Diferite circuite electrice
Olimpiada de Fizică - Etapa pe judeţ 15 ianuarie 211 XI Problema a II - a (1 puncte) Diferite circuite electrice A. Un elev utilizează o sursă de tensiune (1), o cutie cu rezistenţe (2), un întrerupător
2.1 Sfera. (EGS) ecuaţie care poartă denumirea de ecuaţia generală asferei. (EGS) reprezintă osferă cu centrul în punctul. 2 + p 2
.1 Sfera Definitia 1.1 Se numeşte sferă mulţimea tuturor punctelor din spaţiu pentru care distanţa la u punct fi numit centrul sferei este egalăcuunnumăr numit raza sferei. Fie centrul sferei C (a, b,
Laborator 11. Mulţimi Julia. Temă
Laborator 11 Mulţimi Julia. Temă 1. Clasa JuliaGreen. Să considerăm clasa JuliaGreen dată de exemplu la curs pentru metoda locului final şi să schimbăm numărul de iteraţii nriter = 100 în nriter = 101.
4. CIRCUITE LOGICE ELEMENTRE 4.. CIRCUITE LOGICE CU COMPONENTE DISCRETE 4.. PORŢI LOGICE ELEMENTRE CU COMPONENTE PSIVE Componente electronice pasive sunt componente care nu au capacitatea de a amplifica
3. I. Mihoc, C. Fătu, Calculul probabilităţilor şi statistică matematică, Transilvania Press, Cluj-Napoca, 2003
CURS STATISTICĂ CURS 1 Bibliografie: 1. P. Blaga, Calculul probabilităţilor şi statistică matematică, vol. 2, Curs şi Culegere de probleme, Litografiat Univ. Babeş-Bolyai, Cluj-Napoca, 1994 2. P. Blaga,
Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4)
Modelarea şi Simularea Sistemelor de Calcul Distribuţii ( lab. 4) În practică eistă nenumărate eperienţe aleatoare care au un câmp de evenimente nenumărabil şi implicit sistemul complet de evenimente aleatoare
2. Sisteme de forţe concurente...1 Cuprins...1 Introducere Aspecte teoretice Aplicaţii rezolvate...3
SEMINAR 2 SISTEME DE FRŢE CNCURENTE CUPRINS 2. Sisteme de forţe concurente...1 Cuprins...1 Introducere...1 2.1. Aspecte teoretice...2 2.2. Aplicaţii rezolvate...3 2. Sisteme de forţe concurente În acest
CONCURSUL DE MATEMATICĂ APLICATĂ ADOLF HAIMOVICI, 2016 ETAPA LOCALĂ, HUNEDOARA Clasa a IX-a profil științe ale naturii, tehnologic, servicii
ADOLF HAIMOVICI, 206 Clasa a IX-a profil științe ale naturii, tehnologic, servicii. Se consideră predicatul binar p(x, y) : 4x + 3y = 206, x, y N și mulțimea A = {(x, y) N N 4x+3y = 206}. a) Determinați
RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii transversale, scrisă faţă de una dintre axele de inerţie principale:,
REZISTENTA MATERIALELOR 1. Ce este modulul de rezistenţă? Exemplificaţi pentru o secţiune dreptunghiulară, respectiv dublu T. RĂSPUNS Modulul de rezistenţă este o caracteristică geometrică a secţiunii
Câmp de probabilitate II
1 Sistem complet de evenimente 2 Schema lui Poisson Schema lui Bernoulli (a bilei revenite) Schema hipergeometrică (a bilei neîntoarsă) 3 4 Sistem complet de evenimente Definiţia 1.1 O familie de evenimente
Componente şi Circuite Electronice Pasive. Laborator 3. Divizorul de tensiune. Divizorul de curent
Laborator 3 Divizorul de tensiune. Divizorul de curent Obiective: o Conexiuni serie şi paralel, o Legea lui Ohm, o Divizorul de tensiune, o Divizorul de curent, o Implementarea experimentală a divizorului
V O. = v I v stabilizator
Stabilizatoare de tensiune continuă Un stabilizator de tensiune este un circuit electronic care păstrează (aproape) constantă tensiunea de ieșire la variaţia între anumite limite a tensiunii de intrare,
Εμπορική αλληλογραφία Ηλεκτρονική Αλληλογραφία
- Εισαγωγή Stimate Domnule Preşedinte, Stimate Domnule Preşedinte, Εξαιρετικά επίσημη επιστολή, ο παραλήπτης έχει ένα ειδικό τίτλο ο οποίος πρέπει να χρησιμοποιηθεί αντί του ονόματος του Stimate Domnule,
Componente şi Circuite Electronice Pasive. Laborator 4. Măsurarea parametrilor mărimilor electrice
Laborator 4 Măsurarea parametrilor mărimilor electrice Obiective: o Semnalul sinusoidal, o Semnalul dreptunghiular, o Semnalul triunghiular, o Generarea diferitelor semnale folosind placa multifuncţională
Fig Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36].
Componente şi circuite pasive Fig.3.85. Impedanţa condensatoarelor electrolitice SMD cu Al cu electrolit semiuscat în funcţie de frecvenţă [36]. Fig.3.86. Rezistenţa serie echivalentă pierderilor în funcţie
Vectori liberi Produs scalar Produs vectorial Produsul mixt. 1 Vectori liberi. 2 Produs scalar. 3 Produs vectorial. 4 Produsul mixt.
liberi 1 liberi 2 3 4 Segment orientat liberi Fie S spaţiul geometric tridimensional cu axiomele lui Euclid. Orice pereche de puncte din S, notată (A, B) se numeşte segment orientat. Dacă A B, atunci direcţia
Cursul 6. Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT
Cursul 6 Tabele de incidenţă Sensibilitate, specificitate Riscul relativ Odds Ratio Testul CHI PĂTRAT Tabele de incidenţă - exemplu O modalitate de a aprecia legătura dintre doi factori (tendinţa de interdependenţă,
BARAJ DE JUNIORI,,Euclid Cipru, 28 mai 2012 (barajul 3)
BARAJ DE JUNIORI,,Euclid Cipru, 8 mi 0 (brjul ) Problem Arătţi că dcă, b, c sunt numere rele cre verifică + b + c =, tunci re loc ineglitte xy + yz + zx Problem Fie şi b numere nturle nenule Dcă numărul
SEMINARUL 3. Cap. II Serii de numere reale. asociat seriei. (3n 5)(3n 2) + 1. (3n 2)(3n+1) (3n 2) (3n + 1) = a
Capitolul II: Serii de umere reale. Lect. dr. Lucia Maticiuc Facultatea de Hidrotehică, Geodezie şi Igieria Mediului Matematici Superioare, Semestrul I, Lector dr. Lucia MATICIUC SEMINARUL 3. Cap. II Serii
Curs 2 DIODE. CIRCUITE DR
Curs 2 OE. CRCUTE R E CUPRN tructură. imbol Relația curent-tensiune Regimuri de funcționare Punct static de funcționare Parametrii diodei Modelul cu cădere de tensiune constantă Analiza circuitelor cu
CURSUL AL IV-LEA. Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni, pe clase din 5kg în 5kg
CURSUL AL IV-LEA 1 Reprezentarea grafică a datelor statistice - Consideraţii generale Sunt două metode de bază în statistică: numerică şi grafică. Folosind metoda numerică putem calcula statistici ca media
Examen AG. Student:... Grupa:... ianuarie 2011
Problema 1. Pentru ce valori ale lui n,m N (n,m 1) graful K n,m este eulerian? Problema 2. Să se construiască o funcţie care să recunoască un graf P 3 -free. La intrare aceasta va primi un graf G = ({1,...,n},E)
Recapitulare - Tipuri de date
Recapitulare - Tipuri de date Date numerice vârsta, greutatea, talia, hemoglobina, tensiunea arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi
INTRODUCERE ÎN STATISTICA MEDICALĂ
INTRODUCERE ÎN STATISTICA MEDICALĂ 1 » Terminologia statistică» Ce este populaţia statistică» Ce este și de ce folosim eşantionul statistic» Care sunt principalele metode de eşantionare» Diferența dintre
Subiecte Clasa a V-a
(40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii
Foarte formal, destinatarul ocupă o funcţie care trebuie folosită în locul numelui
- Introducere Αξιότιμε κύριε Πρόεδρε, Αξιότιμε κύριε Πρόεδρε, Foarte formal, destinatarul ocupă o funcţie care trebuie folosită în locul numelui Αγαπητέ κύριε, Αγαπητέ κύριε, Formal, destinatar de sex
Zgomotul se poate suprapune informaţiei utile în două moduri: g(x, y) = f(x, y) n(x, y) (6.2)
Lucrarea 6 Zgomotul în imagini BREVIAR TEORETIC Zgomotul este un semnal aleator, care afectează informaţia utilă conţinută într-o imagine. El poate apare de-alungul unui lanţ de transmisiune, sau prin
2. Circuite logice 2.2. Diagrame Karnaugh. Copyright Paul GASNER 1
2. Circuite logice 2.2. Diagrame Karnaugh Copyright Paul GASNER Diagrame Karnaugh Tehnică de simplificare a unei expresii în sumă minimă de produse (minimal sum of products MSP): Există un număr minim
Indicatori sintetici ai distribuțiilor statistice
Indicatori sintetici ai distribuțiilor statistice STATISTICA DESCRIPTIVĂ observarea Obiective: organizarea descrierea datelor sintetizarea 1. Populație 2. Eșantion 3. Caracteristica observată Tabel de
Spatii liniare. Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară. Mulţime infinită liniar independentă
Noţiunea de spaţiu liniar 1 Noţiunea de spaţiu liniar Exemple Subspaţiu liniar Acoperire (înfăşurătoare) liniară 2 Mulţime infinită liniar independentă 3 Schimbarea coordonatelor unui vector la o schimbare
Tranzistoare bipolare şi cu efect de câmp
apitolul 3 apitolul 3 26. Pentru circuitul de polarizare din fig. 26 se cunosc: = 5, = 5, = 2KΩ, = 5KΩ, iar pentru tranzistor se cunosc următorii parametrii: β = 200, 0 = 0, μa, = 0,6. a) ă se determine
III. Reprezentarea informaţiei în sistemele de calcul
Metode Numerice Curs 3 III. Reprezentarea informaţiei în sistemele de calcul III.1. Reprezentarea internă a numerelor întregi III. 1.1. Reprezentarea internă a numerelor întregi fără semn (pozitive) Reprezentarea
Analiza bivariata a datelor
Aaliza bivariata a datelor Aaliza bivariata a datelor! Presupue masurarea gradului de asoiere a doua variabile sub aspetul: Diretiei (aturii) Itesitatii Semifiatiei statistie Variabilele omiale Tabele
Cursul Măsuri reale. D.Rusu, Teoria măsurii şi integrala Lebesgue 15
MĂSURI RELE Cursul 13 15 Măsuri reale Fie (,, µ) un spaţiu cu măsură completă şi f : R o funcţie -măsurabilă. Cum am văzut în Teorema 11.29, dacă f are integrală pe, atunci funcţia de mulţime ν : R, ν()
Exemple de probleme rezolvate pentru cursurile DEEA Tranzistoare bipolare cu joncţiuni
Problema 1. Se dă circuitul de mai jos pentru care se cunosc: VCC10[V], 470[kΩ], RC2,7[kΩ]. Tranzistorul bipolar cu joncţiuni (TBJ) este de tipul BC170 şi are parametrii β100 şi VBE0,6[V]. 1. să se determine