Temas de Estadística Práctica
Antonio Roldán Martínez

Introducción Recogida de datos Medidas paramétricas Medidas típicas Correlación
Regresión Distribuciones teóricas Muestreo y estimación Contraste de hipótesis
Análisis de varianza

Distribuciones teóricas: Cuestión-ejemplo Prácticas Ejercicios Uso en el aula Para ampliar Resumen teórico


Estás en
Inicio > Estadística >>  Tema 8 - Contrastes de hipótesis

 

Tema 8   

 

Contrastes de hipótesis

Cuestión-ejemplo
Prácticas
Ejercicios
Uso en el aula
Para ampliar
  
  Contraste para la diferencia de dos proporciones
  Caso práctico

Resumen teórico

 

 

Cuestión - Ejemplo

Creo que vamos a peor...

Un director de un colegio tiene una especial preocupación por el alumnado de difícil comportamiento. Ha elaborado un criterio objetivo para calificar a ciertos alumnos o alumnas como conflictivos. Se basa en las faltas de asistencia, retrasos, calificaciones trimestrales partes de disciplina, etc. Lleva años calificando como conflictiva a una parte del alumnado, que supone, por término medio el 12% de la población estudiantil de la que procede su alumnado.

Últimamente está observando un incremento del porcentaje de este tipo de calificaciones. En efecto, en el presente curso, con una matrícula de 1385, el colegio presenta un número medio de 201 calificaciones de conflictividad. ¿Puede seguir manteniendo la hipótesis de que sólo supone un 12% del total?

 

Esta cuestión es un ejemplo claro de un contraste de hipótesis estadística. El director hace una afirmación o tiene una creencia: el grado de conflictividad es del 12% del alumnado. Los hechos, sin embargo, parecen hacerle sospechar que esto ya no es cierto. En efecto, el grado actual es del 201/1385 = 14,5%

En estos casos surge siempre una duda: La diferencia que observo, ¿es debida al azar o a que en realidad la población estudiantil ha cambiado?

Teóricamente, es imposible responder con seguridad a esta pregunta por lo que lo haremos en términos de probabilidad: Los 1385 alumnos y alumnas de este año constituyen una muestra de la población total. Si presentan un 14,5% de conflictividad puede ser debido a que en la actual promoción ha llegado al colegio, por puro azar, un alumnado de peor comportamiento que la media. Pero también puede ocurrir que haya cambiado toda la población.

Si calculáramos la probabilidad de que ocurra lo primero (por puro azar) y nos resultara muy pequeña, nos inclinaríamos más bien al caso contrario (que ha cambiado la población). Si la probabilidad fuera razonable, por prudencia, mantendríamos la hipótesis del 12%.

¿Qué es una probabilidad pequeña o una probabilidad razonable? Según el tipo de trabajo estadístico que se emprenda, se suele tomar como límite 0,1, 0,05 ò 0,01.

 

En el resumen teórico puedes repasar los conceptos de los Contrastes (o tests) de hipótesis

Si deseamos efectuar un contraste de hipótesis sobre la proporción, según la teoría, si np>5 se puede usar la distribución binomial, que desemboca en normal para muestras grandes.

En este caso np coincide con las 201 calificaciones de conflictividad, luego se cumple con creces. Además, conocemos P=0,12, Q=0,88 y n=1385, luego podemos pasar directamente al contraste.

En todo contraste de hipótesis se aconsejan un mínimo de pasos para concretar bien el problema:

(1) Planteamiento de las hipótesis nula y alternativa

En este caso la hipótesis previa es que el porcentaje era del 12%:   H0 : P = 0,12

La preocupación del director se justifica por la sospecha de que la proporción ha aumentado, luego: H1 : P> 0,12

Así que planteamos una hipótesis de tipo unilateral por la derecha.
 

(2) Supuestos del contraste

Un contraste de proporción con una muestra tan grande se comporta como si la población fuera normal, por lo que podemos suponerla.

Suponemos muestra aleatoria simple procedente de una población normal.
 

(3) Estadístico de contraste

Para la elección del contraste debes consultar los manuales de Estadística o el apartado de teoría de este tema. En este caso usaremos

Es mucho más cómodo en nuestro caso usar la hoja de cálculo tproporcion.ods, que contiene este contraste en su primera hoja "Una proporción", y tan sólo necesitamos rellenar los datos:

En la imagen vemos incorporado el dato del tamaño de la muestra, 1385, la proporción de la hipótesis nula, 0,12, y la alternativa de 0,145.

También se ha elegido ya el contraste unilateral por la derecha, porque el objetivo es contrastar si la proporción ha aumentado.

 

(4) Nivel de significación

Ya se explicó que los niveles más usados son los de 0,1, 0,05 y 0,01. Su complemento a 1 recibe el nombre de Nivel de confianza, que por tanto tendrá usualmente los valores de 0,90, 0,95 y 0,99

En el caso de Ciencias Humanas se suele elegir el 0,95. Así se ha hecho en nuestro caso.

 

(5) Toma de decisión

Si observas la parte inferior del esquema de contraste podrás entender cómo se toma la decisión.

 

El estadístico de contraste presenta un valor de 2,86, que en la distribución normal está más a la derecha que el valor crítico de 0,95 que ves que es 1,64, luego el estadístico se sitúa en la zona de rechazo.

Otra forma de verlo es con el p-valor, que es la probabilidad, si la hipótesis nula fuera cierta, de que se produzca un resultado del 14,5%. Lee en el esquema su valor, que es de 0,0021, algo muy cercano a cero, prácticamente imposible. Por tanto, nuestra decisión debe ser:

Se rechaza la hipótesis nula

La población de estudiantes ha cambiado.

 

(6) Intervalo de confianza

A veces, cuando se rechaza un hipótesis, es conveniente proponer una alternativa. Podemos conseguirlo estimando el verdadero valor que tiene la proporción ahora. Esto se consigue construyendo un intervalo de confianza (generalmente bilateral) para el nuevo dato de la población.

En nuestro caso sería el de (0,128, 0,162), es decir, entre un 12,8% y un 16,2%, con un error de estimación del 1,71%. Resulta muy afinado porque la muestra es grande.

 


Práctica 1

 

En una prueba general realizada por todo el alumnado de un nivel de enseñanza se han detectado diferencias que parecen significativas entre dos grupos, uno diurno y otro nocturno. El primero, de 67 alumnos y alumnas, ha obtenido una media en la calificación de 5,23, con una desviación típica de 1,78. En el otro, compuesto de 58 pruebas realizadas, la media ha sido de 4,78 y la desviación típica de 1,60. No se tiene información sobre las características de la población, ni de sus parámetros. ¿Puede ser significativa la diferencia de rendimiento entre los dos turnos, al 95% de nivel de confianza?

Los contrastes de media presentan bastantes  variantes, por lo que el mayor problema en ellos es elegir los supuestos y estadísticos más adecuados.

En este caso las muestras no están relacionadas. Como además son grandes, se puede suponer la normalidad de la población. No se conoce la varianza de la población y por tanto tampoco sabemos si las varianzas en ambos colectivos se pueden considerar iguales. Así, estamos en el caso:

Dos muestras independientes con varianzas de la población desconocidas y sin que nos conste su igualdad.

Si consultas la teoría, el estimador en este caso es

Se supone que las dos desviaciones típicas de la población se sustituyen por sus estimadores insesgados, las cuasidesviaciones típicas. En ese caso la distribución del estadístico es aproximadamente normal.

Acudimos a la hoja tmedia.ods y escribimos los datos (El modelo está preparado para aceptar la desviación típica, y no la cuasidesviación) y supuestos en la hoja Dos medias (independientes):

Elegimos un contraste bilateral porque no suponemos a priori que un grupo deba tener mejor rendimiento que otro. Después marcamos "Son desconocidas y supuestas distintas"


 

 

 

 

 

 

 
Tamaño muestra 1
 
67
 
Tamaño muestra 2
 
58

 

 

 

 

 

 

 
Media 1
 
5,23
 
Media 2
 
4,78

 

 

 

 

 

 

 
Desviación típica 1
 
1,78
 
Desviación típica 1
 
1,6
(De población o muestra)
 

 

 
(De población o muestra)
 

 

y obtenemos este resultado


 
Resultados
 

 
Valor crítico de Z
 

 

 

 

 

 

 

 

 

 
Desviación muestral
 
0,3
 
Bilateral
 
-1,96 1,96
Estadístico de contraste
 
1,48
 
Unilateral Izquierda
 

 

 
P-valor
 
0,0699
 
Unilateral derecha
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
Decisión Se acepta la hipótesis. Las medias son iguales
 

 

 

 

 

 

Por tanto, las diferencias observadas entre los dos grupos no son significativas, pero por poco, porque el p-valor es muy pequeño 0,0699. Estaríamos en un caso a revisar si se vuelve a pasar la misma prueba. Bastaría que hubiéramos decidido un contraste unilateral para que hubiéramos rechazado la hipótesis.

 


Práctica 2

Se pasa una misma prueba a dos colegios de distintos barrios, con los siguientes resultados:

  Colegio A Colegio B
Número de pruebas 342 405
Promedio obtenido 5,44 5,72
Desviación típica 1,83 2,08

(1) ¿Existe evidencia, con un nivel de significación del 95%, de que los promedios obtenidos en los colegios sean distintos?
(2) ¿Se puede afirmar, con el mismo nivel, que las varianzas de las dos poblaciones son iguales?

Se podría comenzar por la segunda, pues si las varianzas son iguales, este hecho puede influir en el contraste elegido para la primera.

Así que se puede plantear un contraste de dos varianzas. Con muestras tan grandes se puede suponer la normalidad y usar el contraste F.

Abrimos la hoja tvarianza.ods - Hoja 2 - Contraste de dos varianzas.

Observamos que se deben usar las cuasivarianzas, luego deberemos convertir en ellas las desviaciones típicas elevándolas al cuadrado, multiplicando por N y dividiendo entre N-1:

V1= 1,83^2*342/341 =3,36   V2 =2,08^2*405/404= 4,34

Rellenamos todos los datos que poseemos:

Debemos plantear el contraste bilateral, pues no se nos ha indicado ningún dato que suponga que un colegio ha de presentar más dispersión que otro.

El resultado será el siguiente:

Se ve que el estadístico de contraste vale 1,29, y cae a la derecha del valor crítico superior 1,23. Por tanto se rechaza la hipótesis con un p-valor muy pequeño: 0,0073, lo que le da mucha fiabilidad a la afirmación. Las varianzas se pueden considerar distintas en la población.

Pasamos a las medias. Deberemos usar un contraste de medias en muestras independientes y con las varianzas de las poblaciones supuestas distintas.

Abrimos la hoja tmedia.ods - Hoja 2 - dos medias independientes

Rellenamos los datos y elegimos Contraste bilateral y varianzas desconocidas supuestas distintas. Obtenemos lo siguiente:

Se observa la aceptación de la igualdad de los promedios, pero está tan en el límite, (estadístico -1,95 frente a valor crítico -1,96) que aunque aceptemos la hipótesis nula para ser fieles a la metodología, deberíamos repetir pruebas similares en otra ocasión. Si hubiéramos fijado un nivel de 0,90, la hipótesis se hubiera rechazado.


Ejercicio 1

Se sospecha que un dado está cargado, y que la cara 1 sale más veces que las demás. Se tira el dado 600 veces y el número 1 aparece en 115 ocasiones. ¿Podemos sospechar, con un nivel de confianza del 95%, que, efectivamente, el dado está cargado hacia el 1?
¿Qué ocurriría con un nivel del 0,90?

Solución: El tamaño de la muestra es el número de tiradas, 600. Si deseas escribir la proporción de la hipótesis nula, que es 1/6, en la primera hoja del libro tproporcion.ods, puedes hacerlo de esta forma =1/6 y así no desperdicias decimales. De la misma forma, la proporción alternativa se puede escribir como =115/600. Escribe también 0,95 (o 95%) en el nivel de confianza y elige unilateral por la derecha. Si estudias la decisión, observarás que el estadístico está en el límite de la zona crítica. Se acepta por pocas milésimas, y eso no es satisfactorio. En estos casos se suele repetir el experimento para mayor seguridad.

Cambia el 0,95 por 0,90 y en ese caso se rechaza la hipótesis. Este ejemplo te puede servir para desconfiar de esta técnica y usarla con mucha seguridad y cuidado.

 


Ejercicio 2

El director de la cuestión-ejemplo, planteada al principio de este documento, sigue analizando las calificaciones de conflictividad. Ahora la preocupa el diferente comportamiento según el sexo. Elige al azar un grupo de 250 chicas y descubre que están calificadas como conflictivas 30. En otro grupo de 300 chicos son 40 los problemáticos. ¿Podemos afirmar, con un nivel de confianza del 95%, que ambas proporciones son iguales?

Solución: Abre la segunda hoja "Igualdad de proporciones" del libro tproporcion.ods. Escribe los tamaños de las muestras (250 y 300) y las dos proporciones (30/250 y 40/300). te resultará una proporción conjunta de 0,127. Nos decidimos por un contraste bilateral, porque el director no parece tener una opinión previa. Observa los resultados: El estadístico de contraste -0,47 está comprendido entre los dos valores críticos -1,96 y 1,96. Otra forma de analizarlo es que su p-valor, 0,6798, está muy alejado del nivel de significación 0,05. Por tanto se acepta la igualdad de proporciones entre chicos y chicas.


Ejercicio 3

La siguiente tabla representa dos medidas consecutivas realizadas a los mismos sujetos en una variable cuantitativa. Una antes de un tratamiento y la otra posterior al mismo:

Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Medida A 2 5 4 3 4 5 7 5 5 4 3 5 6 2 1
Medida B 2 6 5 4 6 8 6 7 6 4 4 7 9 5 2

¿Se puede considerar el tratamiento eficaz, es decir, producente de una diferencia significativa en las medias de ambas medidas? Se supone que lo esperado era un aumento de la media.

Solución: Crea una tabla de diferencias entre las medidas A y B y obtendrás una diferencia media de 1,33 a favor de B y una desviación típica de 1,14. Abre la hoja tmedia.ods y abre la última hoja "Dos medias relacionadas". Rellena los datos: Tamaño 15, media 1,33, desviación 1,14, valor de hipótesis 0 (como si el tratamiento no fuera eficaz). Consideramos desconocida la varianza de la población. De esta forma el p-valor es 0,0006, lo que nos hace rechazar la hipótesis de igualdad de medias, tanto al 95% como al 99%. El tratamiento ha sido eficaz.

 


Uso en el aula


Herramientas

 

tmedia.ods

Esta herramienta permite realizar contrastes de hipótesis sobre medias:

(a) De una sola media
(b) Igualdad de dos medias independientes.
(c) Igualdad de medias relacionadas.

 

tproporcion.ods

Herramienta para realizar contrastes de hipótesis sobre las proporciones:

(a) De una sola proporción
(b) Igualdad de dos proporciones
(c) De la diferencia entre dos proporciones

tvarianza.ods

Permite realizar contrastes de hipótesis sobre las varianzas:

(a) De una sola varianza
(b) Igualdad de dos varianzas

 

 

 


Para ampliar


Contraste para la diferencia de dos proporciones

En el Ejercicio 1 se planteó como hipótesis nula la igualdad de dos proporciones, lo que nos permitía considerar la proporción conjunta. Sin embrago, en otros casos lo que interesa es contrastar la diferencia entre dos proporciones. Por ejemplo, para analizar si una campaña de sensibilización incrementa un porcentaje en una cantidad dada.

Ejemplo

¿Se nota la campaña?

Unos grandes almacenes han instalado unas cajas de cobro automáticas. Durante los primeros meses, tan sólo las han usado un 8% de la clientela, por lo que deciden iniciar una campaña publicitaria a fin de incrementar ese uso en un 10%, y justificar así su instalación. Durante unos días, en horas elegidas aleatoriamente, han efectuado un recuento  y han descubierto que de un conjunto de 2340 clientes, tan sólo han usado las cajas 208. Después de desarrollar la campaña, han repetido el estudio, y esta vez, de 1978 clientes, han pasado por las nuevas cajas 395. ¿Justifican estos resultados, al 95% de nivel de confianza, que se ha logrado el incremento deseado del 10%?

En este caso aplicaremos el estadístico de contraste

en el que las proporciones en la población son 8% y 18% respectivamente (si admitimos esto como hipótesis nula) y las de la muestra 208/2340=0,0889 y 395/1978=0,1887.

Abre la tercera hoja del libro tproporcion.ods y escribe en ella los datos. Como el error es pequeño, se toman aquí como parámetros de la población los mismos valores que en la muestra, y sólo hay que rellenar la diferencia de proporciones supuesta (aquí el 10%)

Suponemos contraste bilateral y fijamos el 95% de nivel de confianza:

El resultado del contraste será que se rechaza la hipótesis de un incremento del 10%. Si rellenas los datos observarás que ha subido un 11,1% de forma significativa.

 

Caso práctico


En una ONG se organizan encuentros trimestrales con todos los Delegados y Delegadas. Suelen asistir, salvo pequeñas variaciones y ausencias, las mismas personas. En cada encuentro se recoge una valoración posterior y se intentan mejorar los aspectos que se hayan puntuado menos. La Dirección está interesada en saber si las correcciones surten efecto, y por eso desearía averiguar si las medias de las encuestas de cada dos encuentros consecutivos son significativamente distintas entre sí. Los últimos encuentros produjeron estos resultados:

Encuentro Octubre 07 Enero 08 Abril 08 Julio 08
Media 4,2 3,7 4,1 4,2
Desviación t. 0,8 1,2 1,4 1,2
Asistentes 47 54 45 49

¿Cómo tratar estadísticamente estos datos?

El interés de la Dirección está en comparar cada dos medias consecutivas, luego se está en el caso de Diferencia de Dos Medias Independientes. Como siempre asisten las mismas personas, salvo pequeños cambios, se puede suponer que la varianza de las poblaciones es desconocida, pero siempre la misma. Al ser el número de asistentes superior a 30, se puede suponer la normalidad de la población.

El análisis de esta situación se puede efectuar con la hoja de cálculo tmedia.ods. Ábrela y elige la hoja Dos medias (independientes). Fija antes de nada que el contraste sea Bilateral, porque no tenemos motivos para inclinarnos por un sentido u otro. Activa también el caso Se suponen desconocidas, pero iguales.

Para cada par de encuentros consecutivos rellena los datos de media, desviación típica y tamaño de la muestra. Obtendrás estos resultados al 95% de Nivel de Confianza:

Primera y segunda: Estadístico de contraste 2,4, p-valor 0,0082. Son significativamente distintas.

Segunda y tercera: Estadístico de contraste 1,52, p-valor 0,0649. No hay razón para pensar que las medias son distintas.

Tercera y cuarta: Estadístico de contraste 0,37, p-valor 0,64. No hay razón para pensar que las medias son distintas.