Temas de Estadística Práctica
Antonio Roldán Martínez

Introducción Recogida de datos Medidas paramétricas Medidas típicas Correlación
Regresión Distribuciones teóricas Muestreo y estimación Contraste de hipótesis
Análisis de varianza

Distribuciones bidimensionales: Cuestión-ejemplo Prácticas Ejercicios Uso en el aula Para ampliar Resumen teórico


Estás en
Inicio > Estadística > Tema 5 - Distribuciones bidimensionales. Regresión.

 

 

 

Tema 5                  

 

Distribuciones bidimensionales. Regresión

Cuestión-ejemplo
Prácticas
Ejercicios
Uso en el aula
Para ampliar
  
  Regresión no lineal

  Relaciones alométricas
Resumen teórico

 

Cuestión - Ejemplo

¿Tendré que estudiar mucho para sacar notable?

Un grupo de Enseñanza Secundaria ha elaborado una encuesta sobre las horas diarias que emplean en el estudio y la calificación obtenida en Matemáticas en el último examen.

Han recogido los resultados en la siguiente tabla:

Horas de estudio 0 0 1 1 1 1 1 2 2 2 2 2 3 4 4 5
Calificación 2 1 3 4 3 2 2 4 5 7 8 6 5 8 10 7

Además de estudiar el grado de asociación entre las dos variables, que ya se explicó en el tema anterior mediante el coeficiente de correlación, nos puede interesar hacer pronósticos: ¿Qué nota puedo esperar si estudio 2 horas y meda? Para realizar esos pronósticos usaremos las técnicas de Regresión.


Práctica 1

Puede ser interesante, en primer lugar, determinar el grado de paralelismo que existe entre ambas variables. Para averiguarlo, abre un modelo similar al que usamos en el tema 4. Te repetimos las instrucciones:

- Selecciona la tabla en este documento y pide Copiar.

- Abre el archivo regresion.ods,  selecciona la hoja Borrador, y en cualquier celda y pide Pegado Especial como Formato HTML

- Selecciona en esa hoja Borrador sólo los datos numéricos.

- Borra la zona de entrada de datos de la hoja Cálculo con el botón correspondiente

- Pega los datos en esa zona mediante Pegado Especial, pero acordándote de activar Transponer, para que queden en columna.

Si no te apetece realizar las operaciones anteriores, escribe los datos de forma manual.

Con esta operación descubriremos que el Coeficiente de Correlación es alto y positivo: 0,824, luego podemos afirmar que

Existe un grado de asociación importante y positiva
entre las horas de estudio y las calificaciones que se dan en nuestro grupo.

En el Gráfico de dispersión se observa una tendencia de los datos de pasar de abajo a la izquierda hasta arriba a la derecha, es decir, que a menos horas corresponden calificaciones bajas y más horas mejores notas. Para recalcar esta tendencia, aunque suponga un pequeño adelanto en la teoría, se le ha dibujado una línea recta que la representa.

Esta recta que hemos dibujado es la llamada recta de regresión lineal, y es el principal objeto del estudio de este tema.


Recta de regresión lineal

Dada una distribución bidimensional simple, con datos X-Y cuantitativos, llamaremos recta de regresión correspondiente a esa distribución a aquella que mejor se adapta al gráfico de dispersión XY, también llamado Nube de puntos. Este acercamiento se define de forma rigurosa como 

La recta de regresión de Y sobre X es aquella que minimiza la suma de cuadrados de las diferencias entre los valores de Y y los correspondientes Y’ (para el mismo valor de X) medidos en dicha recta.

Puedes ir consultando la teoría de forma simultánea al desarrollo de esta actividad

En la imagen se han vuelto a dibujar la nube de puntos y la recta, y algunas diferencias (en verde las positivas y en rojo las negativas) entre los datos verdaderos y los que estarían medidos en la misma recta. Esas diferencias son las que deben cumplir que la suma de sus cuadrados sea la mínima posible. En la práctica lo que se pretende es que el ajuste entre recta y nube sea el mejor posible.

A partir de esta propiedad, y aplicando cálculos un poco complejos que no vienen al caso en este curso, se puede determinar la ecuación de la línea recta que cumple la propiedad deseada. Esta ecuación es del tipo siguiente: 

= A + BX

donde el coeficiente B representa la tasa de cambio o pendiente y el coeficiente A es el valor correspondiente a X=0, y la llamaremos ordenada en el origen. porque es el punto en el que la línea recta corta al eje Y. La variable Y' se escribe así para distinguir el verdadero valor de una medida, que sería Y, de su valor correspondiente en la línea de regresión, al que representaremos por Y' y le llamaremos pronóstico o predicción.

Según el signo de la pendiente B, hablaremos de relación positiva o creciente

y de relación negativa o decreciente.

La fórmula para B se demuestra que es 

es decir, la covarianza existente entre X e Y dividida entre la varianza de X

y la de A

que podemos expresar como la diferencia entre la media de Y y la de X multiplicada por B

Aunque no demostremos las fórmulas, sí podemos comprobar que estos valores son los adecuados para conseguir que la suma de errores al cuadrado sea mínima.

   Abre el documento minimocuad.pdf para profundizar en el tema.

Si volvemos a nuestra cuestión inicial, esta técnica que presentamos nos permitirá obtener una fórmula para los pronósticos. Si has escrito bien los datos en el archivo regresion.ods y has obtenido el coeficiente de correlación 0,824, basta que leas al lado la ecuación de regresión de esa encuesta:

Ecuación de regresión

 
Y=1,881 + 1,513X

Podemos interpretar esta relación como sigue: si multiplicamos las horas de estudio por 1,513 y le sumamos 1,881, obtendremos un pronóstico para la calificación que esperamos.

 


Práctica 2

Construcción de un modelo para el estudio de la Regresión

Para estudiar la regresión entre dos variables estadísticas deberás construir un modelo adecuado con Hoja de Cálculo. Puede ser similar al siguiente:

 

Escribe todos los títulos, rótulos y colores a tu gusto

Reserva dos columnas con unas 15 ó 20 celdas cada una, para albergar los datos X e Y respectivamente. Rellénalas, tal como hiciste al principio de la sesión, con los datos de la tabla de horas de estudio.

Selecciona todos los datos de la X con el ratón y pide Insertar > Nombre > Definir y les das el nombre de X. Haz lo mismo para dar el nombre de Y a la segunda columna.

Coeficiente de correlación

Recuerda que es un número entre -1 y 1 que representa el grado de asociación entre X e Y. Si introducimos la recta de regresión, también se puede interpretar como el grado de ajuste de los datos a dicha recta. Para su cálculo debes usar la fórmula

 =COEF.DE.CORREL(Y;X)              Comprueba que te vuelve a resultar 0,82...

Esta fórmula y las siguientes las puedes insertar con el asistente de funciones eligiendo el tipo funciones estadísticas.

 

Sitúa el cálculo de R en la celda que desees, o siguiendo la estructura propuesta. Recuerda dejar dos columnas libres para pronósticos y errores.

Línea de regresión

Para hallar los coeficientes A y B de la recta de regresión puedes usar:

Para B, que es la pendiente:                              =PENDIENTE(Y;X)

Para A, que es la intersección con el eje Y:       =INTERSECCION.EJE(Y;X)

Como ves, las fórmulas son muy directas y no necesitan cálculos complejos, que quedan a cargo del programa.

El valor de B es 1,513 y el de A 1,881, luego la ecuación de la recta de regresión será Y' = 1,881+1,513X, que es el mismo resultado que obtuvimos en la práctica 1.

Pronósticos

Los pronósticos se pueden calcular mediante la fórmula Y'=A+BX, pero OpenOffice.org dispone de una función especial, por lo que podemos rellenar la columna directamente.

La fórmula que debes usar es:

=PRONÓSTICO(celda de X que tiene enfrente;Y;X)

La celda de X escríbela como es usual en la Hoja: B7 ó C4, etc. Rellena así la primera celda de la columna que has reservado para pronósticos y copia luego hacia abajo. Comprueba que te resultan estos pronósticos:

Errores

Error típico:  Es el error que se espera en los pronósticos. Lo tienes en la parte derecha del modelo. Su fórmula es:

=ERROR.TIPICO.XY(Y;X)

El valor que te da, 1,55, es el error que se espera cometer en los pronósticos. Su significado preciso es un poco más complicado.

Columna de errores:  La consigues restando el pronóstico y el verdadero valor de Y. Comprueba los resultados.

Con esto tienes un modelo apropiado para estudiar la correlación y la regresión, pero no estaría completo sin un gráfico de dispersión XY.

 

Gráfico de la recta de regresión

Selecciona con el ratón las dos columnas: X, Y con sus rótulos

Construye un gráfico XY Dispersión. Ya sabes cómo

Para incluir la recta de regresión de manera automática puedes proceder como sigue:

- Una vez construido el gráfico a tu gusto, haz doble clic sobre él, señala un punto de la nube con el ratón y vuelve a hacer clic hasta que veas seleccionados todos los puntos de esa nube.

- Pulsa entonces con el botón derecho y elige la pestaña Estadística. En ella activa el añadir como curva de regresión la línea de regresión lineal.

Acepta y verás dibujada la recta de regresión deseada.

Pronósticos para otros valores

La recta de regresión es útil para hacer pronósticos sobre valores que no figuran en la tabla. Vamos a continuación a resolver la cuestión previa de la sesión. ¿Cuánto tengo que estudiar para sacar notable? Según la tabla de pronósticos, entre 3 y 4 horas. Si quisiéramos concretar más (si es que eso es razonable en este caso) deberíamos usar la fórmula de la recta de regresión, ampliando el modelo creado con estas otras celdas:

La simple inspección de la figura te dará idea de cómo organizar los pronósticos. El valor de Y lo consigues con la fórmula de regresión

= A + BX

y el de X, despejando: X=(Y'-A)/B

En la figura tienes la solución de la cuestión previa: El notable supone estudiar 3,38 horas.

Si tienes dificultades en algún detalle de la confección de este modelo, puedes consultar bidim0.ods en la carpeta de modelos de esta sesión.

 


Práctica 3

El programa OpenOffice.org no nos permite calcular la covarianza o los coeficientes de regresión en las tablas de frecuencia conjunta. Como es interesante poderlo conseguir, en esta práctica, más breve que la anterior, usarás un modelo ya preparado para ello.

Partimos de un caso práctico:

A unos alumnos y alumnas de un colegio se les ha sometido a una prueba en la que el nivel de pericia en la resolución de las cuestiones se mide de 1 a 5. Por otra parte, interesa saber si la edad influye en la pericia demostrada en esas tareas. Se han combinado ambas variables, resultando la siguiente tabla conjunta:

 

Pericia\Edad 11 12 13 14 15
1   1 2    
2 2 4 2 1  
3   2 4 2  
4   3 5 3 2
5     1 1 2

Con estos datos se desea preparar una tabla ideal en la que se contengan los pronósticos de nivel de pericia para cualquier edad, esté o no contenida en la tabla. En concreto se desea que abarque desde los 9 hasta los 17 años.

Estudiaremos las cuestiones referentes a la misma mediante un archivo de OpenOffice.org ya preparado.

Abre el archivo regconfrec.ods. Pulsa el botón de Borrar todos los datos.

De forma parecida a como copiaste los datos en anteriores prácticas, copia la tabla de arriba en el archivo de Open Office. Para ello selecciona los datos de este documento y, mediante Copiar y Pegar los copias en la entrada de datos. No te preocupes si cambian los colores. Es normal.

Te puede quedar algo así:

Ya tienes a tu disposición las frecuencias marginales y los totales, que servirán para efectuar los cálculos que necesitas.

Si pasas a la hoja Cálculos observarás que el coeficiente de correlación no es muy alto, 0,51, lo que invalidaría este trabajo en ambientes de tipo más científico, pero como estamos aprendiendo, seguiremos.

Pasa a la hoja Pronósticos, en la que puedes observar qué nivel de pericia correspondería a cada edad.

Pronósticos para Y
 

 

 
11 2,03
12 2,59
13 3,15
14 3,7
15 4,26
0  
0  

Si deseas un pronóstico para otra edad, por ejemplo la de 10 años, escríbela más abajo en su celda apropiada y se te formulará un pronóstico de 1,47 de nivel de pericia en esa tarea. De todas formas, al trabajar con pocos datos, y con un coeficiente de correlación no muy alto, los resultados sólo nos valen como ejemplo para el aprendizaje.

 


Ejercicio 1

La población del pueblo de Andrés ha seguido esta evolución en los últimos quinquenios (redondeando a cientos)

Año 1970 1975 1980 1985 1990 1995 2000
Población 8200 8700 8900 9900 10000 10500 11200

Copia estos datos en el modelo que has creado en la Práctica 2 y lee los resultados para ver si coinciden con estos

¿Qué población esperaríamos para 2005 y 2010?

Usa las celdas que has creado para pronósticos que están fuera de la tabla. Te debe dar:

Y´(2005) = 11585 habitantes
Y´(2010) = 12.075 hab.

El error típico es 184, que es la desviación típica de los errores. Repasa su columna y observarás que todos son de esa magnitud. Como verás en otro tema, es raro que un error supere el doble del error típico, es decir 184*2 = 368 habitantes. De hecho, se cumple en este ejemplo.

Ejercicio 2

En un viaje muy aburrido, Elena anota la hora cada vez que pasa el coche familiar por puntos kilométricos múltiplos de 20. El resultado de su entretenimiento es el siguiente:

Minutos 0 10 28 41 55 70 86 98
Kilómetros 0 20 40 60 80 100 120 140

Pronostica: A) En qué minuto pasó por el km. 75  B)  Dónde se encontraban al cumplir la primera hora.

Usa tu modelo.

A) En el minuto 52    B) En el kilómetro 86

Ejercicio 3

Una empresa de electrónica ha lanzado un producto nuevo, que como todos los de su clase, presenta la llamada "enfermedad infantil", ya que en los primeros envíos suelen abundar los pequeños problemas hasta que la producción se estabiliza. Para estudiar las incidencias, se ha recogido en una tabla el número de llamadas realizadas al servicio técnico de una zona elegida al azar por averías en el nuevo producto, durante 6 meses. Los datos se recogen en la tabla siguiente:

    Seis primeros meses
    1 2 3 4 5 6
Llamadas por día 0 0 1 3 5 6 9
1 0 5 3 5 12 9
2 2 3 6 7 2 0
3 1 8 6 3 0 4
4 7 4 3 2 2 1
5 6 4 0 1 0 1
6 6 2 3 1 1 1
7 1 0 1 0 0 0
8 1 0 0 1 0 0

La variable X corresponde a los seis meses de recogida de datos, y la Y el número de llamadas habidas en un día. Las frecuencias interiores representan el número de días en los que se han recibido las llamadas representadas por la variable Y.

Traslada esta tabla (sólo la parte de color amarillo) a la hoja de cálculo regconfrec.ods. de esta sesión. Resuelve, con esa herramienta, las siguientes cuestiones:

(a) La gráfica conjunta resultante presenta una tendencia hacia un máximo al fondo de la misma.

¿En qué meses y para qué número de llamadas se presenta la zona de máximos? ¿Qué significado tiene esto para el seguimiento de las averías?

(b) A la vista de la distribución de medias condicionadas de Y, que evidentemente posee una tendencia decreciente (observa la gráfica marginal de Y), ¿podemos afirmar que el número de llamadas se va concentrando alrededor de la media con el transcurso de los meses?. Pasa a la hoja Cálculos y estudia qué datos de la tabla nos darían esa información.

(c) Usa la hoja Pronósticos para averiguar en qué mes las averías dejarían de ser un problema importante.


 

Uso en el aula


Herramientas

 

Descarga todas las herramientas
 de forma colectiva

Pulsa aquí: Tema5.zip

 

bidimen.ods

Modelo similar al que se propone construir en la práctica 2, pero conteniendo pronósticos y gráficos. Es muy útil para ejercicios de interpretación de las tablas en los que el objetivo no son los cálculos. En su segunda hoja permite pronósticos puntuales, para interpolar y extrapolar con gran rapidez.

movil.ods

Esta hoja está diseñada para comprobar que la suma de errores cuadráticos respecto a una recta se minimiza si esta es la de regresión.

regfrec.ods

Permite realizar los cálculos de regresión en el caso en el que cada par de datos XY viene acompañado de la frecuencia correspondiente.

regconfrec.ods

Realiza los cálculos de regresión en el caso de frecuencias conjuntas en una tabla de doble entrada.

tendencias.ods

Esta hoja de cálculo agrupa todos los casos de regresión lineal y no lineal. La consulta del valor del coeficiente de determinación R2 permite elegir la tendencia que minimiza los errores cuadráticos y conseguir así la función que mejor representa los datos.

exponencial.ods, potencial.ods, logaritmica.ods y cuadratica.ods

Son cuatro hojas que recogen las mismas técnicas que tendencias.ods, pero de forma separada.

bidimen1.ods, bidimen2.ods, bidimen3.ods y bidimen4.ods son archivos auxiliares del documento bidim.pdf


Documentos para usar

bidim.pdf

Es un documento preparado para guiar a los alumnos en el aprendizaje de los conceptos y las técnicas referentes a las distribuciones bidimensionales en las que las variables son cuantitativas. Permite un repaso de conceptos o bien, con la ayuda de los profesores, para iniciar el tema.


Para ampliar


Regresión no lineal

Cuando unos datos no siguen un proceso lineal, existen técnicas, como la de tomar logaritmos, que permiten el ajuste a otras funciones.

Fundamentalmente son cuatro:

Función exponencial: Se usa para crecimientos y decrecimientos en los que la tasa es proporcional al valor actual (de forma aproximada). Cuanto mayor es el valor actual, mayor es el incremento que sufre.

Función logarítmica: Si se da la proporcionalidad anterior entre el valor actual y la tasa, pero de forma inversa, es decir, que la tasa de variación sea proporcional al valor inverso del actual (1/X), el mejor ajuste es el logarítmico.

Función potencial
: Es la más potente, pues permite encontrar un exponente fraccionario, lo que abarca las potencias y raíces de todo tipo de exponentes. Su expresión es y = a.xb

Función polinómica: Suelen ajustarse bien a los datos, pero sus fórmulas pueden complicarse.

 

En el resumen teórico dispones de una explicación más detallada de la regresión no lineal.

En OpenOffice.org están contenidos directamente los tipos exponencial, potencial, lineal y logarítmico. Para este curso se ha construido también un ajuste cuadrático. Los ajustes polinómicos requieren cálculos matriciales y no se incluyen aquí.

Abre la hoja tendencias.ods y ajusta con él estos datos:

X 1 2 3 4 5 6 7 8 9 10 11
Y 1 3 6 7 10 13 21 24 35 67 72

Para ello rellena en columna los datos de X e Y, en la primera hoja Entrada de datos, borrando después el resto del área de entrada.

También puedes copiar esta tabla a la hoja Borrador de tendencias.ods, y desde allí usar Copiar, pasar a la hoja de Entrada de Datos y usar Pegado Especial, activando Transponer y eligiendo copiar sólo Números.

Observa los gráficos de la hoja Entrada de Datos. Podemos observar en ellos que el ajuste lineal y el logarítmico no se ajustan bien y tienen un coeficiente bajo. Los ajustes potencial, cuadrático y exponencial son muy buenos, y es difícil distinguir cuál de ellos se ajusta mejor a los datos. Para ello debes estudiar el valor del coeficiente de determinación R2 en cada uno de ellos.

Potencial: R2 = 0,9611  Cuadrático: R2 = 0,9577  Exponencial R2 = 0,9582

Luego, por muy poco, el mejor ajuste lo presenta la función Y´=0,831X^1,714

Independientemente del valor de  R2 , podemos tener motivos teóricos para elegir uno u otro ajuste. Por ejemplo, si los datos anteriores correspondieran a ciertos crecimientos biológicos, usaríamos la exponencial.

Otro ejemplo

X 1 2 3 4 5 6 7 8 9 10
Y 1 5 10 14 23 40 50 70 80 95

Repite los pasos y observarás que los mejores ajustes son la potencial y la cuadrática. La elección dependería del modelo previo, si lo hubiera. En caso contrario son determinantes las preferencias de quien realice el experimento.

Además de la hoja tendencias.ods, que agrupa todos los casos de regresión no lineal, puedes consultar cada caso uno a uno en archivos separados:

Exponencial: archivo exponencial.ods

Potencial: Archivo potencial.ods

Logarítmica: Archivo logaritmica.ods

Cuadrática: Archivo cuadratica.ods

 


Relaciones alométricas

Hasta la llegada de los ordenadores a la enseñanza, era muy difícil abordar en la Enseñanza Secundaria ajustes no lineales en tablas de datos procedentes de trabajos de campo o experimentos. Con la Hoja de Cálculo podemos intentar descubrir propiedades aunque los cálculos en que se basan tengan que dejarse a las herramientas informáticas. Como lo importante es la comprensión de conceptos y procesos, no sería muy grave prescindir de los cálculos.

Esta situación se produce, por ejemplo, al comparar medidas múltiples realizadas en Biología sobre un organismo. Al escribir los datos en una hoja de cálculo sepodrán descubrir relaciones alométricas que de otra forma pasarían desapercibidas.

Un caso práctico de este tipo lo tienes en el documento caso1.htm

 

Cambios en la resistencia eléctrica según la temperatura

La resistencia (en realidad, la resistividad) de un conductor metálico aumenta o disminuye según aumente o disminuya también la temperatura. La relación entre ambos cambios se mide con coeficiente a, que se define como el cambio de resistividad por cada grado centígrado de variación.

La fórmula que relaciona estas magnitudes es

Rt = R0*(1+a∆t)

siendo R0 la resistencia inicial de un conductor metálico, Rt la final si se cambia la temperatura, a el coeficiente de cambio de resistividad y ∆t el incremento de temperatura en º C

Es interesante evaluar el valor de a a partir de un experimento. Puedes seguir un desarrollo en el documento caso2.htm