![]() |
Temas de Estadística
Práctica Antonio Roldán Martínez |
Introducción
Recogida de datos
Medidas paramétricas
Medidas típicas
Correlación |
|
Distribuciones teóricas: Cuestión-ejemplo Prácticas Ejercicios Uso en el aula Para ampliar |
||
|
Estás en Inicio > Estadística >> Tema 6 - Distribuciones teóricas |
||
Cuestión-ejemplo
Prácticas
Ejercicios
Uso en el aula
Para ampliar
Bondad de ajuste
Caso práctico
Resumen teórico
| Cuestión - Ejemplo |
Este alumno, ¿está respondiendo al azar? |
Un profesor suele plantear a sus alumnos cuestionarios de veinte preguntas, en las que hay que elegir la verdadera entre tres posibilidades. Quiere evaluar con justicia, pero piensa que algunos de sus alumnos y alumnas pueden superar el cuestionario respondiendo al azar. Desearía averiguar, por ejemplo, qué probabilidad se tendría de acertar 10 o más preguntas sin saber nada del tema.
En estos casos, la Estadística puede orientar mediante la comparación de los resultados empíricos con los que se esperarían según unos Modelos Estadísticos Teóricos, elaborados mediante técnicas derivadas de la probabilidad. Para conseguir esto, debemos tener muy claras las propiedades del estudio que estamos efectuando, para ver si coinciden con las propias de los modelos teóricos.
En el caso de la cuestión anterior se dan tres condiciones:
Resulta que estas tres condiciones caracterizan a un modelo teórico muy popular, que es la Distribución binomial. En este tema nos ocurrirá esto a menudo, que si se cumplen unas condiciones, podrá existir un modelo que nos resuelva algunos cálculos.
Distribución binomial
Efectivamente, el ejemplo citado es un caso típico de Distribución Binomial, pues el alumno que no sabe nada siempre tiene la probabilidad p=1/3 de acertar una pregunta por casualidad. Las preguntas son independientes (salvo algunas pautas inconscientes que pueden seguir) y se trata de estudiar los éxitos obtenidos en 20 intentos.
|
|
Si repasas el resumen teórico reconocerás en este caso la ley Binomial, que será la que apliquemos. |
Ejemplo de Distribución teórica
Usaremos una hoja de cálculo que nos ayude en la cuestión propuesta al inicio de este tema. Abre el archivo tablabin.ods.
En sus primeras celdas verás una cabecera parecida a la siguiente:

Observa la tabla de abajo, que está preparada para 40 intentos.
La primera probabilidad binomial 0,0003007 se ha obtenido mediante su fórmula:
que traducida a OpenOffice se complica algo:
=SI(B12<=Intentos;COMBINAR(Intentos;B12)*p^B12*q^(Intentos-B12);" ")
La explicamos un poco:
En la columna de Acumulada se han ido acumulando las probabilidades. Su utilidad reside en que para evaluar una probabilidad entre dos números de éxitos bastará restar sus probabilidades acumuladas.
Tenemos, pues, un instrumento para evaluar probabilidades en el caso de la prueba de respuestas con elección múltiple. Por ejemplo, un alumno que responda al azar tiene una probabilidad del 90,8% de acertar 9 preguntas o menos. Mucho ¿no?
Una curiosidad: Si alguien responde al azar, lo más probable es que acierte 6 ó 7. Lo tienes muy claro en la tabla, porque estos sucesos poseen la máxima probabilidad: 0,1821
El profesor puede ahora imaginar una escala para evaluar. Supongamos que ha elegido esta:
| Hasta 9 aciertos inclusive | INS |
| 10 a 13 | SUF |
| 13 a 16 | BIEN |
| 17 o 18 | NOT |
| 19 o 20 | SOB |
¿Cómo podríamos evaluar las probabilidades de sacar por lo menos un Bien, o un Notable o Sobresaliente si rellena el cuestionario al azar?
Pasa ahora a la zona de evaluación de la probabilidad entre dos sucesos:
Por ejemplo, para evaluar la probabilidad de obtener al menos un SUF, podemos rellenar los números de éxito con un 10 en la celda G15 y un 20 en la celda G16, y obtendremos 0,09.
Existe un 9% de probabilidad de aprobar respondiendo al azar
En el caso de 10 y 20 nos ha resultado 0,09189.
Comprueba esta escala de probabilidades, interpretada como sacar al menos...si se responde al azar:
| INS | 100% | Al menos saca un INS |
| SUF | 9,2% | Acierta 10 o más |
| BIEN | 3,7% | Acierta 13 o más |
| NOT | 0,00028% | Insignificante |
| SOB | Prácticamente cero | Casi imposible obtenerlo |
No te conformes con leerlo. Consigue que la hoja tablabin.ods te devuelva estos resultados.
Otros ejemplos
Si deseas dominar mejor este tema, te puedes proponer la resolución de estas otras dos cuestiones:
- Encontrar la probabilidad de que al tirar 6 monedas obtengamos entre 2 y 4 caras, ambas inclusive. Solución: 0,78
Número de intentos: 6 Probabilidad 1/2 (si deseas escribir 1/2, hazlo con el signo = delante, es decir =1/2)
- Tiramos tres dados sobre una mesa, ¿qué probabilidad tendríamos de no obtener ningún 6? Solución: 0,58
Número de intentos: 3 Probabilidad 1/6
Normalidad de una distribución de notas.
Uno de los modelos teóricos más usados en Estadística es el de la Distribución Normal, que, en cierto sentido, es una generalización de la Distribución Binomial. Su popularidad proviene de la cantidad de fenómenos que siguen de forma aproximada esta distribución, aunque no son tantos como a veces se cree.
|
|
Repasa las características de la Distribución normal en el resumen teórico |
Nadie ha demostrado que las calificaciones de los profesores se acerquen a una distribución normal, pero supongamos que una profesora de Inglés se planteara esta cuestión: ¿Se pueden considerar mis notas como normales en el sentido estadístico?
| En términos sencillos, lo que la profesora desea averiguar es si sus notas siguen, de forma aproximada, la campana de Gauss. |
![]() |
Imaginemos esta distribución obtenida en el segundo trimestre, con notas numéricas, en los tres cursos que imparte:
| Calificación | Frecuencia |
| 0 a 2 | 6 |
| 2 a 4 | 24 |
| 4 a 6 | 34 |
| 6 a 8 | 12 |
| 8 a 10 | 6 |
¿Cómo podríamos comparar esas notas con la distribución normal?
Abre el modelo notas.ods, que ya contiene esas calificaciones, los puntos medios de los intervalos y la media y desviación típica. Aprovecha, si quieres, para estudiar las fórmulas y repasar los conocimientos que ya tienes..
En el modelo ya se han asignado los nombres de media a la media de las notas, que es 4,70, y desv a su desviación típica (2,0029).
Para ver si una distribución es normal hay que tipificarla. Recuerda la fórmula de la puntuación Z =(nota-media)/desviación. Emplea esa fórmula y rellena la columna Z tipificando los extremos superiores de los intervalos: 2,4,6,8 y 10. Usa la fórmula =(extremo superior del intervalo de su izquierda - media)/desv, es decir, =(2-media)/desv, =(4-media)/desv, etc. Te deberán dar los valores siguientes
| -1,35164984 |
| -0,35313374 |
| 0,64538236 |
| 1,64389846 |
| 2,64241456 |
El programa OpenOffice permite conocer la frecuencia acumulada que tendría un valor de Z en la distribución normal. Se obtiene con la función
=DISTR.NORM.ESTAND(Z)
Sitúa el cursor en la columna E y rellena esta función escribiendo la celda correspondiente en lugar de Z. Arrastra la fórmula y obtendrás estos valores.
| 0,088243739 |
| 0,361994149 |
| 0,740660349 |
| 0,949901426 |
| 0,995884098 |
Como son valores acumulados de frecuencias relativas deberemos multiplicarlos todos por el total de alumnos, que son 82, y nos resultarán frecuencias absolutas acumuladas. Serán estas:
| 7,2 |
| 29,7 |
| 60,7 |
| 77,9 |
| 81,7 |
Calcúlalas en la columna F. Como son acumuladas, deberemos transformarlas en frecuencias absolutas. En la siguiente columna (ya es la última) las construiremos: la primera es simple copia de la primera acumulada, 7,2, y las demás se calculan restando cada acumulada de la anterior. Deberá darte, por fin, este esquema total:
| Calificación | Frecuencia | M. Típica Z | Normal Acum. | Frec. Acum. Normal | Frec. Esperada |
| 0 a 2 | 6 | -1,35164984 | 0,088243739 | 7,2 | 7,2 |
| 2 a 4 | 24 | -0,35313374 | 0,361994149 | 29,7 | 22,4 |
| 4 a 6 | 34 | 0,64538236 | 0,740660349 | 60,7 | 31,1 |
| 6 a 8 | 12 | 1,64389846 | 0,949901426 | 77,9 | 17,2 |
| 8 a 10 | 6 | 2,64241456 | 0,995884098 | 81,7 | 3,8 |
Aquí vemos que la semejanza entre lo real y lo esperado es bastante buena:
| Calificación | Frecuencia | Frec. Esperada |
| 0 a 2 | 6 | 7,2 |
| 2 a 4 | 24 | 22,4 |
| 4 a 6 | 34 | 31,1 |
| 6 a 8 | 12 | 17,2 |
| 8 a 10 | 6 | 3,8 |
¿Podemos concluir que las notas de esta profesora son normales? En una primera inspección, concluimos que sí. Para responder a esta pregunta con más precisión, lee el apartado de Bondad de Ajuste de la sección Para ampliar.
Simulación de un proceso
Según la Ley de los grandes números, las frecuencias tienden a las probabilidades cuando el número de casos tiende a infinito. Intentaremos comprobar esto mediante una simulación:
Un alumno algo tramposo propone a sus compañeros este juego: Se tira un dado, y si se obtiene 1,2 o 3, la banca (que es él) da 30 céntimos al jugador, si sale un 4, ni se gana ni se pierde, y si se obtienen el 5 o el 6, el jugador paga 50 céntimos. ¿Es justo ese juego?
Cuando no se dominan las distribuciones estadísticas podemos entender mejor los procesos mediante una simulación de tiradas.
Pensemos en las probabilidades: El juego te da una probabilidad de 3/6=1/2 de ganar 30, de 1/6 de no ganar ni perder y de 2/6=1/3 de perder 50.
Para simularlo en OpenOffice usaremos la función ALEATORIO(), que produce un número al azar entre 0 y 1. Para entenderlo mejor, abre un libro nuevo de OpenOffice y en la celda B9 escribe =ALEATORIO() (recuerda escribir el signo =). Después pulsa F9 varias veces y observarás que el contenido de la celda cambia de valor de forma aleatoria, siempre entre 0 y 1.
Usaremos esta táctica:
Escribe en la celda C9 esta función:
=SI(B9<1/2;30;SI(B9<4/6;0;0-50))
Estúdiala bien: Si es menor que 1/2, gana 30, y, en caso contrario, si es menor que 4/6, ni gana ni pierde, pero, en caso contrario pierde 50.
Arrastra el contenido de esas dos celdas hacia abajo, por lo menos hasta 200 celdas en columnas. Obtendrás algo parecido a esto:
| Aleatorio | Ganancia |
| 0,97344253 | -50 |
| 0,3904288 | 30 |
| 0,61257098 | 0 |
| 0,27090599 | 30 |
| 0,77906845 | -50 |
| 0,44256985 | 30 |
| 0,68982414 | -50 |
Pulsa F9 y verás cambiar los resultados como si estuviéramos jugando realmente.
Por último, para ver las ganancias totales, situa el ratón debajo de la columna de ganancias y súmala toda con Autosuma o con =SUMAR(C9,C208) o algo similar. Transcribimos a continuación algunas ganancias o pérdidas totales obtenidas pulsando la tecla F9 cuarenta veces sobre unas columnas de 200 números, o sea, el equivalente a 80.000 juegos:
| -470 | -510 | -1020 | -1190 |
| 140 | -730 | 230 | 830 |
| 50 | -950 | -1380 | -50 |
| -470 | -490 | 110 | -970 |
| 310 | 250 | 100 | -600 |
| -540 | 60 | -670 | -50 |
| -480 | -540 | -40 | 380 |
| -650 | 270 | -210 | -90 |
| 700 | -670 | -1440 | -40 |
| 390 | -230 | -1360 | -300 |
Se ve que sale más veces perdiendo que ganando en cada serie de 200 jugadas. Además, si le calculamos su total, nos sale que perdería 12.320 céntimos en las 8.000 jugadas, es decir, -1,54 céntimos por jugada. El juego es injusto.
El que sabe Estadística, podría haberse ahorrado toda la simulación. Bastaba recordar que la Esperanza Matemática de un juego es la suma de los productos de cada ganancia por su probabilidad, que en este caso sería:
1/2*30 - 1/3*50 = -1,66 céntimos, que se aproxima bastante a lo que hemos obtenido por simulación. Sólo ha habido un error de 1,66 - 1,54 = 0,12, que está de acuerdo con lo previsto en la Teoría de Muestras.
Si se arrojan 8 dados en una mesa, ¿cuál es la probabilidad de obtener como máximo tres veces la cara 6?
Tendrás que calcular la probabilidad de obtener 0, 1, 2 o 3 veces el 6. Usa la hoja de cálculo que desees entre las ofrecidas en Herramientas (ver más abajo). Te debe resultar 0,9693, es decir, tendríamos casi la seguridad de obtener como máximo tres veces el 6.
La distribución de Poisson es el límite de la Binomial cuando se cumplen ciertas condiciones: probabilidad pequeña, número de intentos grande, constancia de np, etc. Para que compruebes este fenómeno, vas a resolver esta cuestión con ambas distribuciones:
En una fabricación suele aparecer un artículo defectuoso por cada 20 terminados. ¿Qué probabilidad existe de obtener entre 5 y 15 defectuosos en un lote de 200 fabricados?
Por binomial: Abre la hoja tablabin.ods y rellena los datos pertinentes. Te deberá resultar una probabilidad de 0,9292.
Por Poisson: El parámetro np vale aquí 200*(1/20) = 10. Con este valor halla la probabilidad entre 5 y 15 y obtendrás 0,9220, resultado bastante proximado al anterior.
Un profesor afirma que su alumnado suele obtener con él una media de 4,6 y una desviación típica de 1,2 en ejercicios puntuados entre 0 y 10. Si en este trimestre ha de realizar 560 pruebas ¿Cuántas calificaciones entre 6 y 8 puntos puede esperar?
Abre la herramienta tablanorm.ods. Escribe los datos adecuados y obtendrás un número esperado de 67 puntuaciones entre 6 y 8.
|
Descarga todas las herramientas |
Pulsa aquí: Tema6.zip |
Simulaciones
Se incluyen en este apartado simulaciones de experimentos aleatorios, porque en Estadística Práctica a veces es la mejor forma de comprobar propiedades cuya demostración rigurosa se encuentre fuera del alcance de las personas interesadas.
Ley de los grandes números
En este modelo se asigna una probabilidad a un suceso y se efectúa una simulación de 10, 20, 50, 100,...tiradas para comprobar mediante un gráfico y una tabla de errores la convergencia entre frecuencia y probabilidad.
Sucesos de tipo cualitativo
Permite definir una distribución teórica de tipo nominal y efectúa una simulación sobre ella.
Lanzamiento de dos dados
Simulación de la tirada de dos dados. Se puede apostar por una suma y realizar recuentos que conducen la ley binomial. Ha sido experimentado con alumnado de Enseñanza media en cursos de profesores usando una versión anterior a la que se ofrece.
Tiradas de monedas
Mediante un temporizador, se simulan series de tiradas de monedas, al final de las cuales aparecerá un diagrama de barras con un buen ajuste a la distribución binomial.
Distribución uniforme
Genera datos distribuidos uniformemente a lo largo de un intervalo. Se puede elegir el número de datos generados, sus límites y su carácter de número natural o real.
Distribución normal
Genera datos distribuidos de forma normal.Se puede elegir el número de datos generados y sus límites.
Distribución binomial
Genera datos distribuidos según una distribución binomial. Se puede elegir el número de intentos en cada experimento y la probabilidad de éxito.
Experimento de Galton
Reproduce, de forma muy efectista, el experimento de Galton de caída de bolas por un aparato con canales en escala. Es una forma muy intuitiva de entender la acumulación de sucesos en la distribución binomial.
Ajustes
Bondad de ajuste mediante el test chi-cuadrado
Test de ajuste entre una distribución empírica y la correspondiente teórica. Esta última la ha de escribir el usuario según sus conocimientos.
Ajuste a una distribución normal
Ajusta una distribución de frecuencias al modelo normal, indicado si el ajuste es significativo o no.
Cálculos
Probabilidades binomiales
Es un pequeño modelo que admite como entradas Número de intentos, Número de éxitos y Probabilidad P. El resto de celdas está protegido contra escritura. Es un comprobador simple y útil de los cálculos que puedan efectuar los alumnos.
Probabilidades de Poisson
Con el valor de la media m (parámetro) construye una tabla de probabilidades, así como la existente entre dos valores.
Frecuencias normales
Para un conjunto de datos del que se conocen el máximo y el mínimo, calcula las frecuencias que se podría esperar si el conjunto siguiera una distribución normal.
Similar a la anterior. Se escribe la media, la desviación típica y el número total de unos datos, y la hoja devuelve la frecuencia esperada entre dos medidas concretas.
Es un documento preparado para guiar a los alumnos en la confección de un simulador de tiradas de dados. Se puede usar en Bachillerato como repaso de conceptos, complemento o ejercicio práctico. Cuando se ha usado en las clases ha dado un resultado bastante satisfactorio. También se ha incluido en cursos para profesores.
En el ejemplo de la profesora de Inglés dejamos en suspenso la evaluación numérica de la confianza que podemos tener en que sus calificaciones se aproximen a una distribución normal.
Recordemos que sus datos eran estos:
| Calificación | Frecuencia | Frec. Esperada |
| 0 a 2 | 6 | 7,2 |
| 2 a 4 | 24 | 22,4 |
| 4 a 6 | 34 | 31,1 |
| 6 a 8 | 12 | 17,2 |
| 8 a 10 | 6 | 3,8 |
Existe una distribución, llamada chi-cuadrado χ2, que nos ayuda a medir la aproximación. Su fórmula es la siguiente:

en la que O representa a las frecuencias observadas y T a las teóricas. El resultado es un número positivo, la chi-cuadrado, que en sí mismo, apenas nos informa: si es grande, la discrepancia entre ambos conjuntos también lo será, y si es muy pequeño, el ajuste será bueno.
Para medir mejor el ajuste disponemos de las técnicas de estimación que estudiaremos en las últimas sesiones. Adelantando un poco, veremos que se puede medir la probabilidad de la discrepancia que observamos. De esta forma, si nos da una probabilidad muy pequeña, es poco probable que nuestra distribución se ajuste a la teoría.
Se suele marcar como límite el 5%: Si la probabilidad de encontrar una distribución como la nuestra es menor que el 5%, debemos pensar que no existe un buen ajuste, y admitimos que existe en caso contrario, si la probabilidad es mayor que el 5%.
Para entender mejor esto, abre el modelo chicuad.ods. Copia en él, en la zona que se te indica, las frecuencias reales y teóricas que obtuvo la profesora. Consulta los resultados en la parte inferior de la hoja y comprobarás que el valor de la chi-cuadrado es de 3,43, que no nos dice nada. Sigue leyendo: como probabilidad de que los resultandos se aparten en este grado de la normal figura el valor 0,3299 (a esta probabilidad la llamaremos p-valor), un 33%, que al ser tan alta, nos permite aceptar que las calificaciones se pueden considerar normales, y las discrepancias fruto del azar.
Más abajo figuran los valores críticos: 7,84 si trabajamos al 5% y 11,34 al 1%, claramente superiores al obtenido de 3,43, que entra dentro de lo esperado y nos confirma la idea del buen ajuste existente entre los datos empíricos y los teóricos.
Resuelve tú esta otra cuestión:
¿Se puede considerar bien construido un dado que presenta estas frecuencias en 300 tiradas?
| Cara del dado | 1 | 2 | 3 | 4 | 5 | 6 |
| Frecuencia | 55 | 45 | 50 | 40 | 60 | 50 |
Las frecuencias teóricas de un dado te las da el sentido común.
Solución: Su p-valor es 0,28, superior al 5%, luego se ajusta a la teoría. No hay sospecha de que esté mal construido, a pesar de las diferencias que se observan.
Cambia las dos primeras frecuencias por 70 y 30 y verás la diferencia.
|
Los datos antropométricos suelen seguir la distribución normal con bastante exactitud. En este caso podemos suponer que sí se trata de datos de tipo normal, de media 40,62 y desviación típica 1,12.
Imaginemos que las tallas que suele ofrecer la empresa van desde la 35 a la 45. Si después se necesitaran más o menos se procedería a cambiar la lista.
La hoja de cálculo tablanorm.ods nos permite traducir los datos a frecuencias.
Para ello debemos rellenar los datos de media, desviación típica y número total
|
|
Datos de tipo normal | ||||
|
|
|||||
|
|
|
|
|
|
|
| Datos: |
|
|
|
|
|
|
|
Escribe la media de tus datos |
|
|
40,62 |
|
|
|
|
|
|
|
|
|
|
Escribe la desviación típica de tus datos |
|
|
1,12 |
|
|
|
|
|
|
|
|
|
|
Y aquí el número de datos |
|
|
1500 |
|
|
|
|
|
|
|
|
Una vez rellenos los datos fundamentales, podemos escribir cada talla y su siguiente para obtener la frecuencia esperada entre las dos medidas. En la siguiente imagen podemos observar que entre la talla 35 y la 36 se espera frecuencia 0, por lo que la empresa no tendría, en principio, que ofrecer talla 35.
| Frecuencia esperada entre dos medidas | ||
|
|
|
|
| Medida núm. 1 | 35 | Z1 |
| Medida núm. 2 | 36 | Z2 |
|
|
|
|
| Frecuencia relativa esperada |
|
0 |
|
|
|
|
| Frecuencia absoluta esperada |
|
0 |
Si se procede de esta forma se podrá construir una tabla con los datos de las tallas consideradas:
| Talla | Número de prendas |
| 35 | 0 |
| 36 | 1 |
| 37 | 14 |
| 38 | 97 |
| 39 | 324 |
| 40 | 514 |
| 41 | 387 |
| 42 | 138 |
| 43 | 23 |
| 44 | 2 |
| 45 | 0 |
Suma 1500
Resulta una suma de 1500, pero, a causa de los redondeos, no siempre ha de coincidir el total de previsiones con el número decidido en principio.
Como era de esperar, la gran mayoría de prendas estarían entre las tallas 38 y 42. Sería una decisión empresarial qué tallas se ofrecerán con un carácter general y cuáles pasarían a tallas especiales o fabricadas sólo bajo pedido.
También se observa en la tabla que, en principio, se puede prescindir de la talla 35, e incluso la 36. Lo mismo ocurriría con las tallas 43 a 45. También constituiría una decisión posterior.
Estas decisiones las han tomado siempre los pequeños comercios e industrias según su experiencia, pero la Estadística ayuda a afinar las previsiones.