Mostraxe Inferencia estatística

Σχετικά έγγραφα
EXERCICIOS DE REFORZO: RECTAS E PLANOS

EXERCICIOS AUTOAVALIABLES: RECTAS E PLANOS. 3. Cal é o vector de posición da orixe de coordenadas O? Cales son as coordenadas do punto O?

Tema 3. Espazos métricos. Topoloxía Xeral,

Tema 1. Espazos topolóxicos. Topoloxía Xeral, 2016

PAU XUÑO 2011 MATEMÁTICAS II

CADERNO Nº 11 NOME: DATA: / / Estatística. Representar e interpretar gráficos estatísticos, e saber cando é conveniente utilizar cada tipo.

Procedementos operatorios de unións non soldadas

Tema: Enerxía 01/02/06 DEPARTAMENTO DE FÍSICA E QUÍMICA

PAU XUÑO 2013 MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS II

Ámbito científico tecnolóxico. Estatística. Unidade didáctica 4. Módulo 3. Educación a distancia semipresencial

Física P.A.U. VIBRACIÓNS E ONDAS 1 VIBRACIÓNS E ONDAS

Estatística. Obxectivos

MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS

PAU Xuño 2015 MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS II

1 Experimento aleatorio. Espazo de mostra. Sucesos

ln x, d) y = (3x 5 5x 2 + 7) 8 x

Estatística. Obxectivos

PAU XUÑO 2012 MATEMÁTICAS II

PAU XUÑO 2014 MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS II

EXERCICIOS DE ÁLXEBRA. PAU GALICIA

I.E.S. Xelmírez. euros, é unha variable aleatoria continua X con función de densidade

MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS

XEOMETRÍA NO ESPAZO. - Se dun vector se coñecen a orixe, o módulo, a dirección e o sentido, este está perfectamente determinado no espazo.

MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS

Resorte: estudio estático e dinámico.

A circunferencia e o círculo

Educación secundaria para persoas adultas. Ámbito científico tecnolóxico. Módulo 4 Unidade didáctica 4. Estatística e probabilidade.

PAU XUÑO 2010 MATEMÁTICAS II

PAAU (LOXSE) XUÑO 2005 MATEMÁTICAS APLICADAS ÁS CC. SOCIAIS

Sistemas e Inecuacións

MATEMÁTICAS. PRIMEIRA PARTE (Parte Común) ), cadradas de orde tres, tales que a 21

MATEMÁTICAS APLICADAS ÁS CIENCIAS SOCIAIS

CADERNO Nº 2 NOME: DATA: / / Os números reais

MATEMÁTICAS. (Responder soamente a unha das opcións de cada bloque temático). BLOQUE 1 (ÁLXEBRA LINEAL) (Puntuación máxima 3 puntos)

FAQ sobre Como realizar un proxecto estatístico para a Incubadora de Sondaxes e Experimentos

Física P.A.U. ELECTROMAGNETISMO 1 ELECTROMAGNETISMO. F = m a

NÚMEROS REAIS. Páxina 27 REFLEXIONA E RESOLVE. O paso de Z a Q. O paso de Q a Á

PAU XUÑO 2011 MATEMÁTICAS II

IX. ESPAZO EUCLÍDEO TRIDIMENSIONAL: Aplicacións ao cálculo de distancias, áreas e volumes

A proba constará de vinte cuestións tipo test. As cuestións tipo test teñen tres posibles respostas, das que soamente unha é correcta.

CiUG COMISIÓN INTERUNIVERSITARIA DE GALICIA

Ano 2018 FÍSICA. SOL:a...máx. 1,00 Un son grave ten baixa frecuencia, polo que a súa lonxitude de onda é maior.

Física P.A.U. ÓPTICA 1 ÓPTICA

Exercicios de Física 02a. Campo Eléctrico

Física P.A.U. ÓPTICA 1 ÓPTICA

VII. RECTAS E PLANOS NO ESPAZO

Números reais. Obxectivos. Antes de empezar.

TRIGONOMETRIA. hipotenusa L 2. hipotenusa

XUÑO 2018 MATEMÁTICAS II

Expresións alxébricas

Inecuacións. Obxectivos

Física e química 4º ESO. As forzas 01/12/09 Nome:

Expresións alxébricas

NÚMEROS COMPLEXOS. Páxina 147 REFLEXIONA E RESOLVE. Extraer fóra da raíz. Potencias de. Como se manexa k 1? Saca fóra da raíz:

MATEMÁTICAS. (Responder soamente a unha das opcións de cada bloque temático). BLOQUE 1 (ÁLXEBRA LINEAL) (Puntuación máxima 3 puntos)

1_2.- Os números e as súas utilidades - Exercicios recomendados

Física P.A.U. VIBRACIÓNS E ONDAS 1 VIBRACIÓNS E ONDAS

ESTRUTURA ATÓMICA E CLASIFICACIÓN PERIÓDICA DOS ELEMENTOS

a) Calcula m de modo que o produto escalar de a( 3, 2 ) e b( m, 5 ) sexa igual a 5. ( )

1. O ESPAZO VECTORIAL DOS VECTORES LIBRES 1.1. DEFINICIÓN DE VECTOR LIBRE

PAU XUÑO 2016 MATEMÁTICAS II

Caderno de traballo. Proxecto EDA 2009 Descartes na aula. Departamento de Matemáticas CPI A Xunqueira Fene

Métodos Matemáticos en Física L4F. CONDICIONES de CONTORNO+Fuerzas Externas (Cap. 3, libro APL)

a) Ao ceibar o resorte describe un MHS, polo tanto correspóndelle unha ecuación para a elongación:

Física P.A.U. GRAVITACIÓN 1 GRAVITACIÓN

CADERNO Nº 2 NOME: DATA: / / Polinomios. Manexar as expresións alxébricas e calcular o seu valor numérico.

Probabilidade. Obxectivos. Antes de empezar

Lógica Proposicional. Justificación de la validez del razonamiento?

Semellanza e trigonometría

LUGARES XEOMÉTRICOS. CÓNICAS

Introdución á análise numérica. Erros no cálculo numérico

Problemas xeométricos

Selectores bootstrap do parámetro de suavizado para a estimación non paramétrica da función de densidade con datos dependentes

Lógica Proposicional

PAU MATEMÁTICAS II APLICADAS ÁS CCSS

ELECTROTECNIA. BLOQUE 1: ANÁLISE DE CIRCUÍTOS (Elixir A ou B) A.- No circuíto da figura determinar o valor da intensidade na resistencia R 2

Exame tipo. C. Problemas (Valoración: 5 puntos, 2,5 puntos cada problema)

Funcións e gráficas. Obxectivos. Antes de empezar. 1.Funcións páx. 4 Concepto Táboas e gráficas Dominio e percorrido

EXERCICIOS DE REFORZO: SISTEMAS DE ECUACIÓNS LINEAIS

Química P.A.U. ÁCIDOS E BASES 1 ÁCIDOS E BASES

A proba consta de vinte cuestións tipo test. As cuestións tipo test teñen tres posibles respostas, das que soamente unha é correcta.

A proba consta de vinte cuestións tipo test. As cuestións tipo test teñen tres posibles respostas, das que soamente unha é correcta.

ELECTROTECNIA. BLOQUE 3: MEDIDAS NOS CIRCUÍTOS ELÉCTRICOS (Elixir A ou B)

Probas de acceso a ciclos formativos de grao medio CMPM001. Proba de. Código. Matemáticas. Parte matemática. Matemáticas.

PAU XUÑO 2010 MATEMÁTICAS II

ÓPTICA- A LUZ Problemas PAAU

PAU XUÑO Código: 25 FÍSICA OPCIÓN A OPCIÓN B

Funcións e gráficas. Obxectivos. 1.Funcións reais páx. 4 Concepto de función Gráfico dunha función Dominio e percorrido Funcións definidas a anacos

Ámbito científico tecnolóxico. Ecuacións de segundo grao e sistemas de ecuacións. Módulo 3 Unidade didáctica 8

PAU XUÑO 2012 FÍSICA

Física A.B.A.U. GRAVITACIÓN 1 GRAVITACIÓN

VIII. ESPAZO EUCLÍDEO TRIDIMENSIONAL: Ángulos, perpendicularidade de rectas e planos

Exercicios de Física 01. Gravitación

Polinomios. Obxectivos. Antes de empezar. 1.Polinomios... páx. 4 Grao. Expresión en coeficientes Valor numérico dun polinomio

Exercicios de Física 04. Óptica

Química 2º Bacharelato Equilibrio químico 11/02/08

Volume dos corpos xeométricos

Corpos xeométricos. Obxectivos. Antes de empezar. 1. Poliedros... páx. 4 Definición Elementos dun poliedro

Exercicios de Física 03b. Ondas

Profesor: Guillermo F. Cloos Física e química 1º Bacharelato Estrutura atómica 2 1

Transcript:

Mostraxe Inferencia estatística A mostraxe e a inferencia estatística utilízase para coñecer as características dunha poboación a partir dun grupo pequeno de elementos da mesma e para coñecer os erros que podemos cometer cando aventuramos características da poboación a a partir da mostra. Conceptos básicos: Poboación: conxunto homoxéneo de todos os elementos sobre os que se se estudan unha ou varias características. Individuo: cada un dos elementos da poboación. Mostra: subconxunto da poboación. Variable estatística: cada unha das características da poboación. -Cualitativas ou atributos: cando describen características non numéricas (cor dos ollos) -Cuantitativas: describen características numéricas. -Discretas: toman un nº finito ou infinito numerable de valores. -Continuas: toman un nº infinito, non numerable, de valores. Cando unha poboación ten un nº grande de elementos e frecuente considerala infinita e modelizala como se fose continua. Explo. Consideramos a poboación dos galegos maiores de 18. A pesar de ser finita en moitos casos pode aproximarse como infinita: sexo: cualitativo idade: cuantitativo. Teoricamente discreta pero normalmente aproxímase como continua Nº de fillos: cuantitativa discreta Parámetro dunha poboación: é unha característica, normalmente numérica, que resume gran cantidade de datos que poden derivarse do estudo da variable estatística. Por exemplo media da poboación (μ) desviación tópica da poboación () Inferencia estatística: conxunto de métodos que intentan regular as condicións nas que os parámetros mostrais poden considerarse válidas para a poboación completa e en que medida cometemos erros ao facer esta simplificación. Mostreo As principais vantaxes da utilización de mostras nun estudo son: -Custo reducido -Maior rapidez -Máis posibilidades: por exemplo se queremos medir a duración de certo tipo de bombillas non ten sentido destruílas todas para comprobalo. Por iso é importante como eliximos a mostra (mostreo) e como extrapolar as conclusións obtidas sobre a mostra ao resto da poboación (inferencia) Tipos de mostreo. Mostreo non probabilístico: é un mostreo a ollo, dependa da subxectividade do que elixe a mostra. Mostreo probabilístico: Cando coñecemos a priori a probabilidade de que un elemento forme parte da mostra. Pode ser: Con remprazamento: cando o o elemento escollido pode ser elixido novamente ao volver a reincorporarse á poboación. Sen remprazamento: cando un elemento é escollido elimínase completamente da poboación. A parte desta clasificación no modo concreto de tomar a mostra existe varios tipos de mostreo probabilístico: 1

Aleatorio simple: se todos os individuos da poboación teñen a mesma probabilidade de ser elixidos na mostra. Explo. Para facer un estudo sobre unha característica concreta dos galegos maiores de 18 asignamos un nº a cada individuo da poboación (cada galego) e tomamos utilizando a xeración de números aleatorios unha mostra de n elementos. Para xerar, por exemplo números aleatorios entre 1 e 95: Se por exemplo queremos estudar a duración dun tipo de bombillas tomamos n elementos por simple extracción. Sistemático: Consiste en obter un 1º individuo (orixe) da mostra por mostreo aleatorio simple e despois tomar os seguintes a saltos de igual magnitude dentro da lista de tal xeito que lle demos unha volta completa á lista. Este salto chámase coeficiente de elevación (h) Calculamos a 1, a = a 1 +h,... (N- tamaño poboación, n- tamaño da mostra) Explo. Dunha poboación de 1000 individuos queremos tomar unha mostra de 100. Coeficiente de elevación Tomamos aleatoriamente a 1 A partir deste calculamos a = a 1 +n,... Mostreo estratificados: Úsase cando a poboación non é moi homoxénea, entón elíxense distintos grupos, chamados estratos, nos que se os individuos se comportan de modo máis homoxéneo respecto ao carácter que se estuda e os estratos son heteroxéneos entre si. A forma de repartir os elementos da mostra, determinando cantos deben corresponder a cada estrato chámase afixación e pode ser: -Afixación uniforme: todos os estratos teñen o mesmo nº de elementos. -Afixación proporcional: si o nº de elementos que se toma en cada estrato é proporcional ao tamaño do estrato. Os elementos de cada estrato tómanse por mostreo aleatorio simple n tamaño da mostra n i nº de elementos que tomamos do estrato N i N i tamaño dos estratos para calcular o nº de elementos a tomar de cada estrato utilizamos Explo. Poboación 1300 alumnos/as: 46 de 1º, 359 de º, 67 de 3º, 133 de 4º e 115 de 5º n 1 = 3'77 ~3 n = 7'6 ~7 n 3 = 0'54 ~0 n 4 = 10'3 ~10

n 5 = 8'84 ~8 faltan 3 polo que aumentamos en 1 aos n i con maior parte decimal (n 1 =33, n =8, n 5 =9) Eliximos así a mostra se a diferencia entre os cursos é significativa no estudo da variable (altura, horas de estudo...) non o faremos, por exemplo co nº de irmáns. Mostreo por conglomerados: cando a poboación está composta por grupos homoxéneos entre si pero os individuos de cada grupo son heteroxéneos. Explo. Galegos maiores 18 anos. Se queremos estudar o color dos ollos podemos tomar como conglomerados as rúas e eliximos aleatoriamente varias para facer o estudo analizando todos os elementos dos conglomerados elixidos. Mostreo polietápico: os individuos que compoñen a mostra determínanse en varias etapas. Poden facerse elixindo estratos (ou conglomerados) dentro de cada estrato (ou conglomerado) Este tipo de mostreo e o de conglomerados é máis económico pero menos fiable. Exerc. 1.-Unha gandería ten 3 000 vacas. Quérese extraer unha mostra de 10. Explica como se obtén a mostra: a) Mediante mostraxe aleatoria simple. b) Mediante mostraxe aleatoria sistemática..-unha gandería ten 000 vacas. Son de distintas razas: 853 de A, 51 de B, 31 de C, 04 de D e 110 de E. Queremos extraer unha mostra de 10: a) Cantas hai que elixir de cada raza para que a mostraxe sexa estratificado con repartición proporcional? b) Como ha de ser a elección dentro de cada estrato? 3.-Só un dos seguintes procedementos permítenos obter unha mostra representativa. Di cal é e razoa a resposta a) Para estudar as frecuencias relativas das letras, tómanse ao azar 0 libros da biblioteca dun centro escolar e cóntase as veces que aparece cada letra na páxina 0 dos libros seleccionados. b) Para coñecer a opinión dos seus clientes sobre o servizo ofrecido por uns grandes almacéns de certa cidade, selecciónase ao azar, entre os que posúen cartón de compra, a 100 persoas entre as que gastaron menos de 1 000 o último ano, outras 100 entre as que gastaron entre 1 000 e 5 000, e 100 máis entre as que gastaron máis de 5 000. c) Para calcular o número medio de persoas que están adscritas a cada cartilla nun Centro de Saúde da Seguridade Social, os médicos toman nota de todas as cartillas das persoas que acoden ás consultas durante un mes. 4.-En certa provincia hai catro comarcas, C1, C, C3 e C4, cun total de 1 500 000 persoas censadas. Delas, 300 000 residen en C1, 450 000 en C e 550 000 en C3. Quérese realizar un estudo sobre os costumes alimenticios nesa provincia baseado nunha mostra de 3 000 persoas. a) Que tipo de mostraxe deberiamos realizar se queremos que na mostra resultante haxa representación de todas as comarcas? b)que número de persoas habería que seleccionar en cada comarca, atendendo a razóns de proporcionalidade? c) Como seleccionarías as persoas en cada comarca? 3

Estimación Un estimador é un valor que se pode calcular a partir dos datos da mostra e que proporciona información sobre o valor do parámetro da poboación. Dado un parámetro descoñecido θ (media, varianza,...) da poboación, un estimador non é mais que unha expresión que se calcula coa mostra e que está destinado a obter un valor próximo ao do parámetro descoñecido da poboación. Puntual: cando obtemos só 1 valor para o parámetro que estabamos a estimar. Explo. A media da poboación (μ) pode estimarse coa media mostral ( ) A desviación típica da poboación () pode estimarse coa desv. típi. mostral (S) A proporción (p) da poboación pode estimarse coa proporción da mostra Estimación Por intervalos de confianza: cando interesa determinar un determinado intervalo no que poida afirmarse, cunha determinada probabilidade, que o valor do parámetro da poboación estea nese intervalo. Este parámetro normalmente é a media para as distribucións normais e a proporción para as dicotómicas Idea intuitiva das distribucións mostrais Partimos dunha poboación de tamaño N. Obtemos k mostras de tamaño n e a cada unha delas calculámoslle un parámetro ( media, desviación típica,..) e obtemos k valores Se representamos estes valores do parámetro nun histograma este vai tomando a forma da campá de Gauss a medida que k aumenta 4

Distribución mostral das medias Teorema central do límite ( permite utilizar a distribución normal para dar estimacións da media mostral incluso cando a poboación de orixe non segue unha normal. Theo. Sexan X 1, X,...,X n variable independentes igualmente distribuídas con media μ e desviación típica finita. Entón a distribución das medias Consecuencias: x= x 1 +x +... x n n N( μ, n) 1. permite pescudar a probabilidade de que a media mostral estea nun certo intervalo. permite calcular a probabilidade de que a suma dos elementos da mostra estea, a priori, nun certo intervalo. 3. Podemos inferir a media da poboación a partir dunha mostra. 4. Se a distribución de partida é normal a distribución das medias é normalmente 5. Se a distribución de partida non é normal e n>30 pode aproximarse como normal. Explo. A estatura, en cm, dun grupo de soldados segue unha N(173, 6) a.- eliximos un soldado ao chou, cal é a probabilidade de que mida menos de 175 cm (0,693) b.- Se tomamos unha mostra de 1 soldados, cal é a probabilidade de que a estatura media supere 176cm (0,0418) Distribución mostral das proporcións Nunha poboación a proporción de individuos que posúe unha determinada característica é p (q= 1-p) Se extraemos todas as posible mostras de tamaño n que poidamos desa poboación, a proporción de individuos de cada unha desas mostras con esa característica é variable aleatoria que toma os distintos valores desas proporcións ( ) Se n é suficientemente grande (n>30) p ~ N( p, pq n ) 5

Explo. 1.- Sábese que o 15% dos nenos entre 15 e 18 anos son miopes. A. como se distribúe a proporción dos menores miopes nunha mostra de 40 individuos b.- Cal é a probabilidade de que nesa mostra a proporción de miopes estea entre o 8% e o % (78,5%) selec 014 Supoñamos que o IMC (índice de masa corporal) en nenas de 13 anos dunha poboación segue unha distribución normal, N(μ, = 4). (a) Se o 6 68% das citadas nenas está en risco de sobrepeso, é dicir, o seu IMC é superior a '5, calcula o valor do IMC medio, μ, para as nenas de 13 anos da poboación. (b) Se o IMC para as nenas de 13 anos da poboación segue unha distribución N(16 5, 4) e se extrae unha mostra aleatoria de 64 nenas de 13 anos desa poboación, calcula a probabilidade de que o IMC medio da mostra estea por debaixo de 15 3 (por debaixo do peso axeitado) (0'008) 6

Estimación por intervalos de confianza Estamos tratando de estimar ( ie. prognosticar)un parámetro da poboación a partir dunha mostra de tamaño n Na estimación puntual efectuabamos a estimación dando un valor concreto ao parámetro. Agora trátase de buscar un intervalo no que afirmaremos ou prognosticaremos que no seu interior se encontra o parámetro a estimar, cunha probabilidade de acertar previamente fixada e que trataremos que sexa a maior posible. Nivel de confianza (1-α ) é a probabilidade de que o intervalo conteña o verdadeiro valor do parámetro. Normalmente exprésase en % Nivel de significación ( α ) representa a probabilidade de equivocarnos. Canto máis pequeno sexa α ( ie. maior é o nivel de confianza (1- α) )a probabilidade de equivocarnos é menor pero o intervalo tería maior amplitude e a precisión sería menor. Normalmente fíxase un nivel de confianza > 90% Valor crítico Dado un nivel de confianza 1- α z α será o valor que nunha N(0,1) compre: P ( z α Z z α ) Explo. Calcular o valor crítico para un nivel de confianza do 99% Intervalos característicos Son intervalos centrados na media da poboación no que a a probabilidade de que un valor da variable estea nese intervalo é 1- α Se Z~ N(0,1) ( z α, z α ) P ( z α Z z α ) =1 α Se X~N(μ,) Z= X μ N (0,1) P ( z α x μ z ) α =1 α 7

z α x+ μ z α x+z α μ x z α ( x z α, x+z α ) 1- α =90% 1- α =95% 1- α =99% =1'645 =1'96 ='575 Intervalo de confianza para a media dunha poboación con coñecida X~N(μ,) queremos estimar mediante intervalos de confianza a media da poboación μ que é descoñecida Tomamos unha mostra aleatoria de tamaño n e calculase a media mostral X~N(μ,) X ~N ( μ, ) Z= x μ ~ N (0,1) n Fixado o nivel de confianza 1- α calculamos valores tales que a probabilidade de que a media da poboación μ estea entre eles sexa 1-α Por definición de valor crítico: P ( z α Z z α ) =1 α P( z α x μ n ) z = α P ( x +z α n μ z α n) =1 α n) ( x z α n, x + z α intervalo de confianza para o parámetro media da poboación μ dunha N(μ,) con nivel de confianza 1-α ( coñecida) Se a desviación típica é descoñecida utilizamos a desviación típica e a varianza mostral (cuasivarianza) 8

(x i x ) S n-1 = que está menos afectada polos valores extremos n 1 da mostra que a varianza (é un estimador insesgado E[ S n-1 ] = ) O intervalo de confianza será: ( x z α S n 1 n, x+ z α S n 1 n ) Explo. Para medir a cantidade de combustible distribuída polas gasolineiras aos condutores tomamos unha mostra de 16 gasolineiras dunha localidade sospeitosa de fraude, elixidas ao chou, resulta que as as cantidades, en ml, subministradas por litro de combustible foron: 998, 995, 990, 991, 968, 977, 998, 999, 980, 993, 974, 897, 956, 964, 986, 997 Trátase de obter un intervalo de confianza dun 95% para a media do combustible subministrado polas gasolineiras da localidade, no suposto de que a variable sexa normal. Calcular tamén o resultado para un nivel de confianza do 90% e do 99% e comparar os resultados 9

Erro máximo admisible e tamaño da mostra para a media n, x + z α n) O intervalo de confianza para a media da poboación era ( x z α A media mostral será sempre o centro do intervalo e a súa amplitude depende do valor E= z α erro máximo admisible para un nivel de confianza 1-α n Para fixar o tamaño da mostra a elixir dependemos do nivel de confianza e do erro máximo que estamos dispostos a aceptar. E=z α n n = z α. E n = ( z α ) E n ten que ser un número natural, de non selo tomamos o inmediato superior Maior tamaño da mostra menor erro maior nivel de confianza (probabilidade de equivocarse α pequeno) maior erro porque a precisión é menor Explo. Queremos estimar o peso medio das troitas de piscifactoría. Por estudos previos sábese que a desviación típica do peso das troitas é de 45 gramos. Queremos construír un intervalo de confianza ao 99% sen que o erro da mostra supere os 4'1 gramos. Que tamaño debe ter a mostra? 10

Intervalos de confianza para a proporción X nº de individuos da mostra que cumpren a característica elixida, entón a proporción da mostra será X ~B(n,p) sendo p a proporción da mostra a estimar. Para n suficientemente grande n>10, npq > 5 e tendo en conta a teoría das distribucións: x ~B (n,p) X' ~N (np, npq) Z= ^p= x n ~ N ( p, pq n ) x' np npq ~ N (0,1) O intervalo de confianza para a proporción será:.^q (^p z α ^p n, ^p.^q +z α ^p ) n Erro máximo admisible e tamaño da mostra para a proporcións Os conceptos son os mesmos que para a media: E= z ^p ( z α.^q α n despexando n n= E ) ^p.^q Explo. Tomamos unha mostra de 300 persoas maiores de 15 anos nunha gran cidade e obsérvase que 104 len a prensa diariamente. Calcula, cun nivel de confianza do 90% un intervalo para estimar a proporción de lectores entre os habitantes maiores de 15 anos 11

Contraste de hipóteses Trátase de tomar decisións: prantexada certa hipótese sobre o parámetro da poboación e a partir dos datos dunha mostra decidiremos se se pode aceptar a hipótese inicial. Hipóteses estatísticas: Son supostos ou conxecturas que se fan sobre as características da poboación. Test ou contraste de hipóteses: procedemento estatístico mediante o que se investiga a verdade ou falsidade dunha hipótese realizada sobre unha poboación. Hipótese nula H 0 : é a hipótese que se formula e que que queremos contrastar ou rechazar, a que manteremos salvo que os datos amosen a súa falsidade Hipótese alternativa : calquera outra hipótese diferente á que se formula e contraria a H 0 de forma que aceptar H 0 implica rechazar e viceversa. Explo: Decidir sobre a inocencia ou culpabilidade dunha persoa nun país no que hai presunción de inocencia H 0 : inocente : culpable Explo. Decidir se un alumno sabe ou non matemáticas H 0 : non sabe matemáticas (suspende) : sabe matemáticas (aproba) Erros: Cando se traballa con contraste de hipótese poden cometerse varios erros: Rechazo H 0 Non rechazo H 0 H 0 certa Erro tipo I Decisión correcta H 0 falsa Decisión correcta Erro tipo II Nos exemplos anteriores: Erro tipo I: condenar un inocente - aprobar un alumno/a que non sabe Erro tipo II: absolver a un culpable suspender a un alumno/a que sabe Nivel de significación α : é a probabilidade de cometer un erro tipo I α =P[ rechazar H 0 / H 0 é certa] Potencia do contraste 1 β : sendo β a probabilidade de cometer un erro tipo II β= P[ non rechazar H 0 /H 0 falsa] A idea é minimizar α e β pero no se pode facer simultaneamente xa que se diminúe unha aumenta a outra ( se poñemos un exame difícil diminúe α pero aumenta β) E xeral fixase un nivel de confianza 1-α que un erro de tipo I Rexión de aceptación: é un intervalo dentro do cal permanece o parámetro (media, proporción,..) e polo tanto aceptamos a hipótese nula H 0 As diferenzas entre o parámetro da poboación e da mostra débense ao azar. O seu tamaño dependerá do nivel de confianza 1-α que precisemos. 1

Rexión crítica: e á rexión ou rexións que quedan fora do intervalo da rexión de aceptación. Indica que neste caso os cambios non se deben ao azar e polo tanto temos que rechazar H 0. Temos que distinguir dous tipos de test: 1.- Contraste bilateral ou de dúas colas. ( a rexión de rechazo está formada por dúas colas) { H 0 : μ=k } : μ k { H 0 :p=k :p k }.-Contraste unilateral ou dunha cola { H 0 : μ k } : μ<k cambiar { H 0 : p k : p<k } Os sentidos das desigualdades poden Unilateral dereita Unilateral esquerda 13

Pasos para realizar un test ou contraste de hipótese 1.- Especificar sen ambigüidade a hipótese nula e a alternativa. (teñen que ser excluíntes) e fixar o nivel de significación (α ) ou probabilidade de cometer erro tipo I.- Elixir o estatístico de contraste ou estatístico do que coñecemos a distribución (normalmente a media ou a proporción) 3.- Calcular os puntos críticos z α / para bilaterais e z α para unilaterais Construímos as rexión de aceptación e rechazo ( z α, z α ) Rexión de aceptación bilateral (, z α ) Rexión de aceptación unilateral dereita ( z α, ) Rexión de aceptación unilateral esquerda 4.- Calculamos o valor do estatístico de contraste a partir da mostra 5.- Aplicamos o test, ie. Dependendo de se os estatístico de contraste cae na rexión de aceptación ou rechazo tomaremos a decisión de aceptar a hipótese nula H 0 ou de indicar que non existen evidencias estatística para o rechazo. Observacións: - Na práctica, a mostra tómase despois de formular as hipóteses, co fin de que o resultado da mostra non inflúa na formulación destas. - Ao diminuír o nivel de significación, α, aumenta a rexión de aceptación e polo tanto é posible que unha hipótese que se rexeite cun nivel de significación do 10% non se poida rexeitar a un nivel de significación do 5%. - Canto máis fóra da rexión de aceptación atópese o estatístico de contraste, con maior confianza poderemos rexeitar a hipótese nula e polo tanto maior seguridade teremos en que a nosa decisión é a correcta. Da mesma maneira, canto máis dentro da rexión de aceptación atópese, maior seguridade teremos á hora de non rexeitar a hipótese nula. Contraste se hipótese para a media da poboación { H 0 : μ=μ 0 0} : μ μ { H 0 : μ μ } 0 : μ<μ 0 { H 0 : μ μ } 0 : μ>μ 0 bilateral unilateral esquerda unilateral dereita X~N(μ,) x ~N( μ, n) `Se H 0 é certa Z= x μ 0 n ~ N (0,1) Se non coñecemos usamos a desviación típica da mostra S n-1 cando o tamaño da mostra é suficientemente grande n>30 14

Exemp. Crese que o tempo medio de lecer que dedican ao día os estudantes de Bacharelato segue unha distribución normal de media 350 minutos e desviación típica 60 minutos. Para contrastar esta hipótese, tómase unha mostra aleatoria formada por 100 alumnos, e obsérvase que o tempo medio de lecer é de 30 minutos. Cun nivel de significación do 10%, contradise a afirmación inicial? 1.- Especificamos o contraste { H 0 : μ=350 : μ 350} bilateral α =0'1 α /=0'05 1-α =0'9.- Definimos o estatístico de contraste X~N(μ,) x ~N( μ, Z= n) `3.- Rexión de aceptación ( z α, z α ) x μ 0 n ~ N (0,1) P[Z z α / ] = 1- α / = 0'95 buscando nas táboas da N(0,1) z α / =1'645 rexión de aceptación: (-1'645, 1'645) 4.- Calculamos o valor do estatístico de contraste Z= x μ 0 n = 30 350 60 100 = 5 5.- Toma de decisión z=-5 polo tanto rexeitamos H 0 :μ=350 Existen evidencias estatísticas de que o tempo medio diario de ocio do alumnado non é 350 minutos 15

Contraste de hipótese para a proporción { H 0 : p=p 0 } { H 0 : p<p } { 0 H 0 : p>p 0 : p=p 0 : p p o : p p o } bilateral unilateral dereita unilateral esquerda A distribución das proporción é: ^p ~ N ( p, pq n ) q=1-p ^p p0 Se H 0 é certa Z= p o q o n ~ N (0,1) Exemp. O concello dunha cidade afirma que o 65 % dos accidentes xuvenís da fin de semana son debidos ao alcol. Un investigador decide contrastar dita hipótese, para o que toma unha mostra formada por 35 accidentes e observa que 4 deles foron debidos ao alcol. Cun nivel de confianza do 99 %, que podemos dicir sobre a afirmación do concello? 1.- bilateral 1-α =0'99 α = 0'01 α /= 0'005.- Elixir estatístico de contraste ^p p0 Z= p o q ~ N (0,1) o n 3.-Rexión de aceptación ( z α, z α ) P[Z<z α / ]=1-α /=0'995 buscando na táboa z α / = '575 Rexión de aceptación (-'575, '575) 4.- Valor do estatístico de contraste Z= 0 ' 686 0 ' 65 =0' 45 0' 65,0 ' 35 35 5.- Toma de decisión: non podemos rechazar H 0. Non existen evidencias estatísticas significativas de que a proporción de accidentes non sexa do 65% 16

Contraste de hipótese para a diferenza de medias Sexan distribucións N(μ 1, 1 ) N(μ, ) Queremos contrastar a hipótese de que as medias son iguais μ 1 =μ μ 1- μ =0 { H 0 : μ μ 1 =0 } : μ 1 μ 0 Tomamos mostras de tamaño n 1, n Pode demostrarse que X 1 X ~ N( μ 1 μ, N( Se H 0 e certa X 1 X ~ 0, 1 ) n n 1 + 1 ) n n 1 + Tipificando: Z= x 1 x 1 + n 1 n ~ N (0,1) Se a desviacións típicas das poboacións son descoñecidas usamos S n-1 Explo. Aos 100 alumnos dunha clase sepáraselles en dous grupos: aqueles que practican habitualmente un deporte e os que non practican ningún, formando cada grupo 60 e 40 alumnos, respectivamente. Medímoslles a altura, obtendo para o primeiro grupo unha media de 1'80 m. e unha desviación típica 0'08 m., e para o segundo grupo unha media de 1'76 m. e unha desviación típica de 0'1 m. Supoñendo que a variable aleatoria altura segue unha distribución normal nos dous grupos, é posible afirmar, cun nivel de confianza do 95%, que hai diferenza de altura entre os alumnos que practican algún deporte e os que non? Fan deporte Non fan deporte n=60 n=40 { H o :μ 1 μ =0 : μ 1 μ 0} x 1 =1'8 S n-1 =0'08 x 1 =1'76 S n-1 =0'01 Definimos o estatístico de contraste Z= S n1 1 n 1 x 1 x + S n 1 n ~ N (0,1) 3.- Calculamos o intervalo de confianza z α / =1'96 (-1'96, 1'96) 4.- Calculamos o valor do estatístico de contraste: 17

z= 0' 1' 8 1 ' 76 =' 105 08 0' 01 + 40 5.- Toma de decisión rechazamos H 0, existe diferenza estatisticamente significativa entre a media do alumnado que fai deporte e dos que non. Apuntes baseados, entre outras, na web do profesor Jorge Escribano e do departamento IES da Xunqueira I 18