Temas de Estadística Práctica
Antonio Roldán Martínez

Introducción Recogida de datos Medidas paramétricas Medidas típicas Correlación
Regresión Distribuciones teóricas Muestreo y estimación Contraste de hipótesis
Análisis de varianza

Distribuciones bidimensionales. Correlación:  Cuestión-ejemplo Prácticas Ejercicios Uso en el aula Para ampliar Resumen teórico


Estás en
Inicio > Estadística >>  Tema 4 - Distribuciones bidimensionales. Correlación.

 

Tema 4                            

 

Distribuciones bidimensionales. Correlación

 

Cuestión-ejemplo
Prácticas
Ejercicios
Uso en el aula
Para ampliar
   Prueba de independencia

   Otros coeficientes de correlación  
Resumen teórico

Cuestión - Ejemplo

¿Influye la primavera en estos chavales?

La Directora de un centro está preocupada por el incremento de faltas graves que se ha producido en los primeros meses del año. Tiene a su cargo tres niveles de enseñanza A, B y C, y el seguimiento de las faltas graves lo ha resumido en la siguiente tabla:

Meses
Niveles
Enero Febrero Marzo Abril Mayo
A 4 6 7 8 8
B 3 3 6 5 9
C 9 7 7 13 14

¿Cómo podría estudiar bien estos datos?
¿Son independientes la distribución de faltas, el nivel de enseñanza y los meses?
¿Qué medidas podríamos usar?

Estamos ante un caso de distribución bidimensional, porque cada falta grave se representa por dos medidas: el mes y el nivel. Siempre que las observaciones comporten dos medidas distintas para cada sujeto estaremos ante una variable bidimensional. Cada medida pertenecerá a una variable distinta, y esta puede ser nominal, cuantitativa, etc. Por ejemplo, en este caso se trata dos variables nominales, los meses y las letras A, B y C.

En esta tabla figuran frecuencias absolutas, pero veremos que también puede haber tablas con frecuencias relativas o porcentajes. Por ser una tabla de doble entrada, se le suele llamar también Tabla conjunta de frecuencias.

En el resumen teórico dispones de los distintos tipos de tablas de frecuencias que se pueden usar en estos casos.

 


Práctica 1


Tipos de frecuencia en una distribución bidimensional


En la tabla conjunta anterior intervienen las dos variables meses y niveles de forma muy relacionada, quizás demasiado, pero podríamos querer estudiarlas por separado, para poder estudiar sus características individuales. Para eso deberemos usar otro tipo de frecuencias.

Frecuencias marginales

Para estudiar una variable sola en una distribución bidimensional podemos sumar por filas y columnas las frecuencias, obteniendo así las correspondientes a una sola variable.

Copia la tabla del ejemplo en un archivo nuevo de OpenOffice.org Calc. Para ello selecciona toda la tabla y pide Edición Copiar. Después abre un archivo nuevo de OpenOffice.org Calc, pide Edición Pegado especial y elige la modalidad de formato HTML. Así obtendrás una copia en la hoja de cálculo para poder sumar filas y columnas.

Para calcular las frecuencias marginales deberás sumar por filas y por columnas. Señala la celda inferior a la columna de Enero y súmala con el botón Autosuma.

Deberá darte 16.

Haz lo mismo en los demás meses, arrastrando la fórmula, o con el botón Autosuma. Obtendrás esta fila de sumas: 16, 16, 20, 26 y 31.


Las frecuencias marginales por columnas ya nos dan una información: En Abril y Mayo ha aumentado el número de faltas graves, independientemente de los niveles.
 

Haz lo mismo con los niveles. Las frecuencias marginales serán 33, 26 y 50 respectivamente.


Las frecuencias marginales por filas nos indican que el nivel C es el más conflictivo.
 

Las frecuencias marginales pueden aclarar algunos comportamientos que antes podían estar ocultos en la maraña de datos.
 

Frecuencias condicionadas

Hemos estudiado cada variable por separado, pero podríamos considerar la influencia de una en la otra viendo cómo cambia la distribución de una de ellas por influencia de la otra. Esto se consigue aislando en la tabla una sola fila o una sola columna. También se pueden condicionar las frecuencias a varios valores, pero es algo más complicado.

Nosotros efectuaremos una operación más potente: Dividiremos, por ejemplo, cada frecuencia entre el total de cada nivel, para ver si la influencia de la primavera ha sido igual de intensa en los tres niveles.

Para lograrlo, haz una copia de la tabla en otra parte (con Copiar y Pegar), junto con todos sus totales, y después sustituye cada frecuencia conjunta por su cociente entre el total de su nivel (totales por filas). Deberás señalar cada celda en la tabla nueva y escribir las operaciones tomando los datos de la tabla primitiva.

Las celdas de las frecuencias se deberán convertir en porcentajes. Usa el menú Formato, elige Celdas y la pestaña Números y fija el formato en Porcentaje. También puedes fijar dos decimales.

Debe quedar así:

Meses Enero Febrero Marzo Abril Mayo  
Niveles  
A 12,1% 18,2% 21,2% 24,2% 24,2% 1
B 11,5% 11,5% 23,1% 19,2% 34,6% 1
C 18,0% 14,0% 14,0% 26,0% 28,0% 1

 Al final de las filas aparece un 1, pues es suma de porcentajes. Si ves que no lo logras bien con la explicación anterior usa otro procedimiento, pero no sigas hasta haber logrado estos porcentajes dividiendo cada frecuencia entre el total de su fila.

De esta forma vemos que en el nivel A la primavera no ha influido tanto como en los otros niveles (los porcentajes son más semejantes), mientras en en B hay dos subidas fuertes en Marzo y Mayo, que es la más fuerte de todas. En C existe una bajada al principio, pero se complica al final, con incrementos suaves. Los tres niveles han reaccionado de forma distinta.

Podemos representar esta distribución en un gráfico tridimensional:

Selecciona toda la nueva tabla, incluidos los rótulos, salvo los 1. Pide Insertar Gráfico.

Como tipo de gráfico elige Columnas, en 3D,realista y en profundidad (tercer subtipo)

En el rango activa  que la primera fila y primera columna son etiquetas.

Rellena el título y demás detalles. Termina con Finalizar.

Deberás obtener un gráfico parecido a este:

 

En él se ve que las columnas del nivel B sufren más cambios que las restantes. Aprende a cambiar la orientación de estos gráficos: señala con el ratón todos los puntos de fijación y experimenta los giros  hasta que la perspectiva sea la que más te agrade.

También es útil un gráfico de barras normales pero triple. Este lo hemos conseguido cambiando los datos a filas en el segundo paso del asistente:

Observamos muy bien en él la evolución de los distintos porcentajes en cada nivel, al venir representados por colores diferentes.

Si te interesa el tema de la verificación de la independencia entre el factor mes y el factor nivel, usa las técnicas de la prueba de independencia incluidas en el apartado Para ampliar. Sigue las instrucciones de la herramienta y comprobarás que no se detecta dependencia entre los meses y los niveles: cada nivel aumenta sus faltas de forma independiente.

 


Práctica 2


Construcción de un modelo para el estudio bidimensional

A los alumnos y alumnas de un grupo de Bachillerato se les ha medido su nivel de Autoestima mediante una escala del 0 al 10, y se les ha pasado un test sobre Inteligencia Emocional que da una puntuación en una escala de 0 a 50. Los resultados los tienes en el archivo test1.ods.

Aprovecharemos estos datos para confeccionar un analizador elemental de variables bidimensionales.

Abre un archivo nuevo de Hoja de Cálculo y diseña una cabecera parecida a esta:

En la zona amarilla de X e Y reserva unas treinta filas para datos. Copia en ella los datos de test1.ods, con Copiar y Pegar, para poder seguir mejor la explicación.

Con Insertar - Nombres - Definir... asigna el nombre de X a la primera columna de datos y el de Y a la segunda. Esto es para tu comodidad. Si no deseas hacerlo después se complicarán un poco las fórmulas.

Los cálculos de la zona de la derecha plantéalos como aprendiste en el tema 2:

Media de X: =PROMEDIO(X)
Media de Y: =PROMEDIO(Y)
Desv. Típ. X:  =DESVESTP(X)
Desv. Típ. Y:  =DESVESTP(Y)

Recuerda también la definición de Coeficiente de Variación como cociente entre la desviación típica y la media.

Comprueba que obtienes los mismos resultados que en la imagen anterior. Vemos que los promedios están ligeramente por debajo de los puntos medios (serían 5 y 50 respectivamente), por lo que el conjunto estudiado presenta valores medios en estas dos variables. El coeficiente de variación de la Autoestima parece muy grande y el de Inteligencia Emocional de tipo más normal.

Covarianza

Ahora estamos interesados en el grado de asociación o paralelismo que presentan estas dos variables en el conjunto que estamos estudiando. Esto se consigue con la Covarianza y el Coeficiente de Correlación.

La covarianza Sxy de X e Y es en realidad la varianza conjunta. Se define mediante la fórmula

 y puede ser positiva, cero o negativa.

Consulta en el resumen teórico la relación que existe entre el valor de la Covarianza y el grado de paralelismo entre X e Y

Coeficiente de correlación

La covarianza, como habrás visto en la Teoría, tiene algunos inconvenientes, por lo que se suele sustituir por el Coeficiente de Correlación, de fórmula

Esta medida del paralelismo entre las variables tiene la ventaja de estar normalizado, en el sentido de que sólo puede tener valores entre -1 y 1.

 

Estudia en el resumen teórico el significado de los distintos valores de r y las falsas ideas que se suelen tener respecto a este coeficiente.

 

Para calcular la covarianza tienes la función de OpenOffice COVAR(X;Y) y para el Coeficiente de Pearson =COEF.DE.CORREL(X;Y)

Puedes situar los cálculos debajo de los anteriores:

¿Obtienes estos resultados?

Ves que el coeficiente de 0,11 es muy pequeño, por lo que podemos concluir que en el conjunto de sujetos estudiado no se observa asociación entre las dos variables de Autoestima y de Inteligencia Emocional. Recuerda siempre que estas afirmaciones se refieren sólo al conjunto estudiado y no suponen ninguna afirmación sobre la población escolar.

Termina el modelo insertando un gráfico de dispersión.

 

Recuerda el modo de conseguirlo: selecciona toda la zona de datos, aunque no esté llena, incluidas las cabeceras X e Y. Pide Insertar Gráfico y eliges el de Dispersión  (gráfico XY)  y el subtipo de Sólo símbolos. Escribe un título y anula la leyenda. Obtendrás la nube de puntos, pero con aspecto muy pobre comparada con la de la figura de arriba.

.

Si deseas que se vean mejor los puntos, o mejorar la estética general del gráfico, haz doble clic sobre el mismo, hasta que su borde presente una banda gris. Después, con paciencia, porque a veces no sale a la primera, señala un punto, hasta que veas seleccionados todos los puntos.

Una vez seleccionados, pulsa con el botón derecho y elige Propiedades del objeto en el menú contextual. En el apartado Símbolo puedes pulsar sobre el botón Selección y concretar el tipo y tamaño del nuevo símbolo. En Gallery tienes algunos vistosos.


Práctica 3 (Profundización)


Organización de datos bidimensionales

En esta práctica aprenderás a usar el Piloto de Datos, también llamado en otras Hojas de Cálculo Informe de tablas dinámicas. El objetivo es convertir una tabla simple de frecuencias, quizás algo desordenada,

Piloto de datos

Esta prestación es la que se conoce en otras hojas como Tablas dinámicas. Es algo muy útil para estructurar datos que se presentan en bruto. Por ejemplo, supongamos que hemos realizado con unos grupos de alumnos y alumnas de un centro dos actividades para celebrar un Centenario. Pasamos unas encuestas anónimas de valoración de las dos actividades, Teatro y Exposición y disponemos de los datos correspondientes en dos columnas, clasificados según los dos grupos que han respondido: 2º A y 3º D.

Puedes consultar este ejemplo en el modelo actividad.ods. Puedes observar que los datos están tal como se han recogido y que sólo se ha tomado nota del grupo.

Curso Teatro Exposición
2º A 2 2
2º A 2 3
2º A 4 4
2º A 3 4
2º A 3 3
2º A 4 3
2º A 3 3
2º A 5 2
2º A 2 5
2º A 2 4
2º A 3 3
2º A 3 3

 

Supongamos que esta organización de los datos no nos acaba de gustar y deseamos contar los pares de respuestas (2,3), (4,1), etc. en una tabla de doble entrada. Para eso sirve el Piloto de datos. Diseñaremos una tabla dinámica de ejemplo con él.

Selecciona todo el rango de datos, incluidos los rótulos de la primera fila, y pide Datos - Definir Área...y asigna a esos datos el nombre de Encuesta.

Vuelve al menú Datos y elige Seleccionar área...Señala el nombre de Encuesta. Con esto el programa sabe sobre qué tabla debe actuar. Pide después Datos - Piloto de datos- Activar y se abrirá este cuadro de diálogo

Ahora debemos indicar qué datos deseamos que aparezcan en columna, fila o en el interior de la tabla. Hay muchas posibilidades. Elegimos la que deseamos, que es una tabla de doble entrada para el Teatro y la Exposición. Sigue estos pasos:

Señala el botón Teatro y arrástralo con el ratón hasta la zona de COLUMNA.

Arrastra el botón Exposición a la zona de FILA.

Por último, arrastra de nuevo Exposición a la zona de DATOS.

Haz doble clic en el nuevo botón Total - Exposición. En las opciones que aparecen elige Contar, porque lo que deseamos es contar cuántos alumnos y alumnas han elegido cada par de valoraciones. Haz doble clic también en el nuevo botón Curso que figura en COLUMNA y define Subtotales (activa la opción de definido por el usuario) como Contar también.

Quedará así:

En el botón de Opciones>> de abajo, activa Resultado en... y sustituye la opción de no definido por la de Hoja nueva, para que la tabla se construya en otra parte y no interfiera con la existente.

Termina pulsando Aceptar y busca en qué parte de la hoja2 se ha creado una tabla nueva.

En la figura se reproduce la tabla resultante

Como observarás, se ha conseguido automáticamente una tabla conjunta de datos. Si sólo deseas ver un curso, por ejemplo 2ºA, pulsa en el botón Filtro, elige el campo curso , la condición = y el valor 2ºA.

Con ello sólo verás la tabla de las 18 encuestas de 2ºA. Haz lo mismo con 3ºD.

En ella ya están contados los alumnos de cada curso que han efectuado alguna valoración concreta: 5 alumnos de 2ºA han valorado con 3 la exposición y con 3 también el teatro. También figuran todos los totales, por curso, por columnas, por filas, etc.

Sobre la tabla dinámica creada puedes construir un gráfico. El problema puede radicar en la selección previa de los datos, que, al tener botones, puede ser difícil. Por ejemplo, sobre la tabla del ejemplo vamos a construir un gráfico de barras apiladas.

Selecciona la tabla desde la celda que contiene el  botón Exposición hasta la última frecuencia, que corresponde a los valores (5,5), sin seleccionar los totales, pero hazlo al revés: comienza seleccionando la última celda y arrastra el ratón hasta el botón. En caso contrario se activará el botón y no lo podrás seleccionar.

Pide a continuación Insertar - Gráfico.

 En el primer paso del asistente activa que tanto la primera fila como la primera columna son etiquetas. Repasa el área de datos

En el segundo elige Columnas y activa que los datos están en filas (para que luego se apilen las columnas. Es una opción. Puedes decidir lo contrario)

En el tercero elige el subtipo En Pilas, y en el último concreta título principal y títulos de ejes.

 

 


Ejercicio 1

Un grupo de alumnos de Psicología han obtenido estas calificaciones en dos asignaturas:

Psicología Evolutiva 1 4 3 5 6 6 5 7 7 7 8 8
Psicología Matemática II 0 1 2 2 4 5 5 5 6 6 6 6

(1) Encuentra el valor de su Coeficiente de Pearson mediante el siguiente procedimiento:

Selecciona la tabla en este documento y pide Copiar.

Abre el archivo bidimen1.ods, selecciona la Hoja2 en cualquier celda y pide Pegado Especial como Formato HTML

Selecciona en esa Hoja2 sólo los datos numéricos.

Borra la zona de entrada de datos de la Hoja1.

Pega los datos en esa zona mediante Pegado Especial, pero acordándote de activar Transponer, para que queden en columna.

Deberá darte R=0,91. Interpreta este resultado.

(2) Observa la Nube de Puntos que aparece junto a la tabla y coméntala. Cambia algunos datos de X o de Y hasta que consigas que el coeficiente sea menor que 0,7. ¿Qué ha ocurrido con la nube?

 


Ejercicio 2

Calcula el coeficiente de correlación de esta distribución conjunta de frecuencias:

Y \ X 1 2 3 4
10 2 7 2 1
20 5 7 3 2
30 1 2 0 0

Para ello abre el modelo conjuntas.ods. que está adaptado a este tipo de tabla.

Copia estos datos en la fila de X, la columna de Y y las frecuencias en la zona amarilla. Si lo haces como en el ejercicio anterior puede que se desorganice un poco la tabla. Mejor los copias fila a fila o manualmente. Acuérdate de borrar las celdas sobrantes con Supr (sólo números).

Debe quedar así:

El resultado del Coeficiente de Correlación debe ser de -0,12, es decir, que estos datos no presentan correlación apreciable. Busca ese resultado en la hoja Cálculos.

 


Ejercicio 3

Abre el modelo ejercicio3.ods, en el que ves que figura una tabla con 20 datos bidimensionales. La variable X es nominal, de valores A,B óC, y la variable Y es cuantitativa. Mediante el Piloto de Datos debes transformar esa tabla en una de doble entrada similar a la siguiente:

 A partir de esa tabla dinámica intenta crear un gráfico lo más parecido a este:

 


 

Uso en el aula


Herramientas

 

Descarga todas las herramientas
 de forma colectiva

Pulsa aquí: Tema4.zip

 

 

recogida.ods

Instrumento para confeccionar tablas de frecuencias conjuntas a partir de datos dobles ingresados individualmente. De una tabla de pares se construye una tabla de doble entrada y se calculan las medias, las frecuencias marginales, los gráficos, etc.

conjuntas.ods

Cuando los datos de una variable bidimensional vienen dados en una tabla de doble entrada (frecuencias conjuntas), el programa OpenOffice.org Calc no puede usar funciones como COVARIANZA, COEF,DE,CORREL, etc. En este modelo dispondrás de un esquema que te permitirá realizar los cálculos en este tipo de distribuciones de frecuencias. La segunda hoja de cálculos está protegida. No olvides dejar en blanco las celdas de datos que no uses.

confrecuencias.ods

Este otro modelo resuelve otra situación no prevista en OpenOffice.org Calc, y es cuando cada para de datos (X,Y) existe una frecuencia, con lo que para resolverlo con las funciones implementadas habría que repetir cada par tantas veces como indique su frecuencia, lo cual es desaconsejable si esas frecuencias son muy altas. Además, con este modelo, puedes conocer las funciones de matriz y parte de la teoría.

movil.ods

Mediante esta hoja podrás efectuar simulaciones de datos bidimensionales que posean promedios y variabilidad determinadas, y en los que se podrá concretar el grado de correlación y la pendiente aproximada de la nube de puntos. Es útil para estudiar la conexión entre la forma de la nube de puntos y el coeficiente de correlación.

 


Documentos para usar

bidim.pdf

En este documento se contiene una introducción casi experimental del significado del coeficiente de correlación. Su desarrollo es totalmente empírico y no pretende impartir teoría, sino ayudar a ver qué mide dicho coeficiente.

niveles.pdf

Documento que contiene reflexiones sobre a aplicación de niveles de aprendizaje en los trabajos de Estadística.


Propuesta didáctica

Desarrollo amplio de cómo explicar las distribuciones bidimensionales de datos continuos en la Enseñanza Media.

Contiene varias actividades de recogida, análisis y presentación de datos, así como herramientas para su desarrollo.

Conviene recorrerla con calma y usar todos los enlaces que contiene a documentos, hojas de cálculo y presentaciones.

 


Para ampliar


Prueba de Independencia

La Prueba de Independencia o Test de Homogeneidad investiga si existe un buen grado de asociación entre dos variables que se estudian conjuntamente, o bien son independientes. Usa la distribución  chi-cuadrado, que estudiarás más adelante.

La idea en la que se basa es muy simple, pero no la desarrollaremos aquí. Se considera que si dos variables son independientes, los valores de una no influirán en los de la otra, es decir, las probabilidades condicionadas serán siempre las mismas. Eso se traduce en la práctica en una proporcionalidad en las frecuencias de la tabla. Sobre esa idea se construyen unas frecuencias teóricas y se comparan con las reales. En los textos de Estadística podrás leer todo el desarrollo completo.

Volvemos al ejemplo de las faltas graves de los alumnos, según la tabla

Meses
Niveles
Enero Febrero Marzo Abril Mayo
A 4 6 7 8 8
B 3 3 6 5 9
C 9 7 7 13 14

¿Que querría decir la afirmación de que los factores nivel y mes son independientes? Pues que la distribución de faltas (por ejemplo, en porcentaje) deberían ser similares en todas las columnas, independientemente  del mes en el que se tomen. Con más claridad, los porcentajes que obtuvimos

Meses Enero Febrero Marzo Abril Mayo  
Niveles  
A 12,1% 18,2% 21,2% 24,2% 24,2% 1
B 11,5% 11,5% 23,1% 19,2% 34,6% 1
C 18,0% 14,0% 14,0% 26,0% 28,0% 1

deberían haber sido los mismos independientemente del mes que consideremos.

Si esto fuera así, todas las frecuencias deberían ser proporcionales y cada una debería poderse calcular mediante proporciones, o la clásica regla de tres. Por ejemplo, la frecuencia del nivel A en el mes de Febrero debería poder calcularse como el producto del total de A por el total de Febrero, dividido después entre el total de todos los alumnos. Comprueba que resultaría esta tabla teórica.

Comprueba algún valor: la frecuencia 6,1 ha resultado de multiplicar 33 por 20 y dividir después entre 109, la frecuencia 11,9 es el resultado de 50*26/109.

Todos estos cálculos los efectúa el modelo homogen.ods. Copia los datos primitivos de los alumnos, sin totales ni porcentajes, en la zona de datos de este modelo.

Pasa a la hoja Cálculos y busca las frecuencias teóricas. Comprueba que son las mismas que hemos obtenido nosotros por regla de tres.

Por último, consulta la hoja Resultados en los que deberá figurar este resumen

Si trabajamos al nivel de significación del 5%, no podemos rechazar la homogeneidad de las frecuencias, no tenemos motivos para pensar que la influencia de la primavera es distinta en cada nivel. Es muy fácil que se presenten estas diferencias: tienen un 93% de posibilidades. Así que, aunque en la primavera se han incrementado las faltas, lo han hecho por igual en los tres niveles, de forma que las observadas se pueden deber al azar.

Prueba con este otro ejemplo:

La siguiente tabla representa la distribución de unos alumnos de Bachillerato en tres niveles de rendimiento en Física y Matemáticas. ¿Se observa independencia entre los resultados de una y otra asignatura?

Niveles en Matem.

Niveles en física

Alto Medio Bajo
Alto 8 10 2
Medio 7 23 5
Bajo 2 6 15

Copia las frecuencias en homogen.ods y observa los resultados: La probabilidad de estas frecuencias si la Física y las Matemáticas fueran independientes es prácticamente nula. Las muestras no son homogéneas, luego, como bien sabemos, estas dos asignaturas presentan una gran influencia.


Otros coeficientes de correlación

El coeficiente de correlación de Pearson es adecuado para datos cuantitativos de intervalo o razón. En el caso de variables nominales, ordinales o dicotómicas se usan otros coeficientes, aunque algunos de ello se reducen en sus cálculos al coeficiente de Pearson.

Coeficiente de Spearman o de rangos

Este coeficiente se popularizó en los textos  de Psicología y de Ciencias de la educación, para variables de tipo ordinal (rangos). Tenía la ventaja de poseer un cálculo simple, que le daba ventaja en la época en la que aún no existían las calculadoras. Hoy en día, por su equivalencia con el de Pearson, se sustituye por este.

Su fórmula es

en la que d representa las diferencias entre los dos rangos correspondientes a un mismo dato, y n el número de esos datos.

Se usa sobre dos conjuntos que representen dos ordenaciones distintas de un mismo colectivo, en asignaturas, jueces, opiniones, etc. distintas.

Si existen empates, se asigna a cada individuo empatado el promedio de los órdenes que le hubieran correspondido. Por ejemplo, en 1,2,3,3,3,4,5, asignaremos a los empatados el rango (3+4+5)/3=4

Abre el modelo otroscoef.ods y rellena la zona de datos con estas ordenaciones de 8 cantantes obtenidas en dos curso de E.S.O. ¿Existe paralelismo entre las ordenaciones de los dos colectivos?

Curso A 1 2 3 4 5 6 7 8
Curso B 4 6 5 3 8 7 2 1

Si consultas el resultado, verás que es un coeficiente negativo y más cercano a cero que a 1. Por tanto, apenas existe paralelismo, y el que hay es negativo, porque las ordenaciones son casi inversas (con el alumnado actual esto sería casi inaudito, pues uno de los dos grupos no habría seguido las modas)

Coeficiente biserial puntual

Este coeficiente es usado cuando una de las variables es cuantitativa y la otra dicotómica. Por ejemplo, la X puede ser el número de horas de estudio (cuantitativa) y la Y el hecho de aprobar o no (dicotómica) Coincide también con el coeficiente de Pearson

Su fórmula es

En la que las medias del numerador corresponden a los dos grupos en los que se separan los datos según la variable dicotómica, el denominador es la desviación típica de la X, y p q son las proporciones de los dos grupos respecto al total.

El siguiente ejemplo corresponde a los datos de 10 clientes de una clínica de adelgazamiento, en el que X es su índice corporal e Y el hecho de tener o no un grado de glucemia peligroso.

X 29 28 34 29 38 40 32 41 29 27
Y SI NO SI NO SI SI NO SI NO NO

Busca la hoja del coeficiente biserial en el modelo otroscoef.ods, rellena estos datos sustituyendo el SI por 1 y el NO por 0. Consulta el resultado, que debe darte 0,74, es decir, una correlación importante entre el índice de peso corporal y el peligro de diabetes.

Coeficiente de contingencia

Este coeficiente, no muy perfecto en su diseño, es un complemento a las pruebas de bondad de ajuste y las pruebas de independencia.

Su fórmula es

Como ejemplo, calcula el coeficiente C de la tabla de faltas graves que hemos usado en esta sesión y te dará un valor de 0,16, de acuerdo con el resultado de la prueba de independencia, que nos indicaba que las muestras eran homogéneas.