Temas de Estadística Práctica
Antonio Roldán Martínez

Introducción Recogida de datos Medidas paramétricas Medidas típicas Correlación
Regresión Distribuciones teóricas Muestreo y estimación Contraste de hipótesis
Análisis de varianza

Diccionario


Estás en
Inicio > Estadística > Diccionrio

 

Diccionario de Estadística práctica

 

Selecciona una letra o un tema:

A

Agrupación, Aleatorio, Amplitud, Análisis, Aplastamiento, Asimetría

B

Bernouilli, BidimensionalBinomial

C

Campana, Característica, CensoCoeficiente, Confiabilidad, Constante, Continua, Contraste, Correlación, Covarianza, Cualitativo, Cuasivarianza, Cuantitativo, Cuantil, Cuartil, Curtosis,

CH

Chi-cuadrado

D

Dato, Decil, Desviación, Determinación, Diagrama, Dicotómico, DiscretaDistribución

E

Error, Escala, Esperanza, Estadístico, Estimación, Estimador, Extremo inferior, Extremo superior,

F

Frecuencia,

 

G

Gauss

H

Hipótesis, Histograma

I

Índice, Inferencia, Insesgado, Intervalo,

 

J

 

K

 

L

Leptocúrtica, Ley

 

M

Marca de clase, Media, Mediana, Medida, MesocúrticaModa, Modalidad, Muestra, Muestreo

N

Nivel de confianza, Nivel de significación, Nominal, Normal

O

Ordenada en el origen

 

P

Parámetro, Pendiente, Percentil, Platicúrtica, Población, Poisson, Porcentaje, Predicción, ProporciónP-valorPuntual

 

R

Rango, Razón, Regresión,

S

Sesgo, Sumas de cuadrados, Supuesto,

 

T

T de Student, Teorema, Test, Tipificación,

U

Uniforme

V

Variable, Variación,  Varianza

 

   

 


A

Agrupación de datos

Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos. Para ello se fija un valor mínimo y otro máximo, de forma que todos los datos estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos). La diferencia entre ambos se denomina rango de los datos y posteriormente se divide en un número de intervalos mediante valores intermedios.

Aleatorio

Experimento aleatorio

Un experimento se llama aleatorio cuando repetido indefinidamente presenta siempre resultados totalmente impredecibles.

Variable aleatoria

Llamaremos Variable aleatoria simple (discreta) a un conjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:

a) Todas las probabilidades son positivas o nulas.

b) La suma de todas ellas es igual a la unidad

 

 

 

Amplitud

Se llama amplitud de un intervalo de datos agrupados a la diferencia entre los valores de sus extremos.

 

Análisis

Análisis de varianza

 

Aplastamiento

Sinónimo de curtosis.

 

Asimetría

Asimetría de una distribución de frecuencias es la característica por la que los datos pierden su simetría respecto a la media. Expresado de otra forma, es el mayor o menor grado de desviación que existe entre la media (reparto equitativo) y la mediana (punto medio de la distribución).

 

 


 

B

Bernouilli

Una distribución de Bernouilli se compone de dos sucesos contrarios A y B, a los que se les suele llamar éxito y fracaso, con probabilidades p y q respectivamente

 

Binomial

Distribución binomial

Esta importante distribución se aplica a pruebas repetidas de la ley de Bernouilli, con las siguientes condiciones:

a) Se realizan experimentos repetidos del tipo Bernouilli, n en total.
b) La probabilidad p permanece constante en todos ellos
c) Cada experimento es independiente del resultado anterior.

 

 

 


 

C

 

Campana de Gauss

Nombre asignado coloquialmente a la representación gráfica de la distribución normal.

 

 

Característica

Es cualquier propiedad de objetos o personas que deseamos estudiar en Estadística

 

Censo

Es el estudio y recuento de todos los elementos de una población.

 

Coeficiente

De variación

De correlación

De determinación

 

 

Confiabilidad

(Ver Nivel de Confianza)

 

Constante

Llamaremos constante a una característica que sólo admite una modalidad, por ejemplo la constante de gravitación universal

 

Continua

Una variable se llama continua si entre cada dos valores suyos pueden existir infinitos otros, como el peso, la estatura, etc.

 

Contraste

Contraste de hipótesis

Sinónimo de Test de hipótesis

 

Correlación

Coeficiente

Es el cociente de dividir la covarianza de una distribución bidimensional entre las desviaciones típicas de X e Y respectivamente.


Covarianza

Es la varianza conjunta en una distribución bidimensional X-Y. Se calcula como el cociente de los productos de las diferencias de X y de Y respecto a sus medias, entre el número de pares de la distribución.

 

Cuadrados mínimos

 

Cualitativo/a

Se aplica a la variable (o dato, o medida) que sólo admite una medida nominal

 

Cuantil

Diremos que un número es el cuantil de orden p en una distribución de frecuencias si el porcentaje de datos inferiores a él es igual a p (y los superiores 100-p). Por ejemplo, el cuantil C85 será un punto que cumple que el 85% de los datos es inferior a él.

 

Cuantitativo/a

Se aplica a la variable que admite medidas de intervalo o de razón

 

Cuartil

Los cuantiles que dividen a la distribución en cuatro partes iguales, es decir, C25, C50 y C75, reciben el nombre de cuartiles, y se representan por Q1 o primer cuartil es el número que deja inferiores a él un 25% de los datos. Q2 o segundo cuartil o mediana es el número que deja inferiores a él un 50% de los datos. Q3 o tercer cuartil es el número que deja inferiores a él un 75% de los datos.

 

Cuasivarianza

Cuasivarianza o varianza insesgada es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1.

 

 

Curtosis

Independientemente de su asimetría, una distribución puede presentar los datos con un reparto más uniforme, en el que las frecuencias sean muy parecidas. El gráfico aparecerá como aplastado y diremos que la distribución es platicúrtica o de poca curtosis. En el otro extremo, si las frecuencias cercanas al centro son mayores (con diferencia) que las alejadas, diremos que es leptocúrtica o con gran curtosis. Al caso intermedio lo denominaremos como distribución mesocúrtica

 

 

 


 

CH

 

Chi-cuadrado

Es la distribución teórica que representa la distribución muestral de la suma de cuadrados de los datos dividida entre la varianza de la población.


 

D

 

Dato

Es el valor cuantitativo o cualitativo que representa un atributo o medida en la población.

 

Decil

Se suelen definir 9 deciles D1, D2, ... D9, que son los puntos que dividen al intervalo en diez partes iguales, correspondientes a los cuantiles de porcentajes 10%, 20%, ...90% respectivamente.

 

Desviación

Desviación media

Es una medida de la dispersión consistente en la media aritmética de las desviaciones individuales respecto a la media, tomadas en valor absoluto. También se usan desviaciones respecto a la mediana.

Desviación típica

Es la raíz cuadrada de la varianza.

 

Determinación

Coeficiente

El coeficiente de determinación es el cociente entre la varianza explicada y la total en un ajuste a la recta de regresión.

 

Dicotómico/a

Adjetivo que se aplica a toda medida o proceso que sólo puede presentar dos valores, como SÍ/NO, Hombre/Mujer, Encendido/Apagado.

 

Discreta

Si una variable  solo admite un número finito de valores entre cada dos, recibirá el nombre de discreta (edades medidas en años, número de hermanos, etc.).

 

Distribución

De frecuencias

El conjunto formado por los valores de la variable y sus frecuencias constituye la distribución de frecuencias de la población o muestra, y se representa en las tablas de frecuencias. 

Bidimensional

Si en un experimento todas las medidas que se obtienen son dobles, pertenecientes a dos variables distintas, a las que llamaremos X e Y respectivamente, se denominará distribución bidimensional a la formada por los pares X-Y de valores relacionados en ambas variables.

Muestral

Distribución muestral es la resultante de considerar, de forma teórica, todas las posibles muestras que se puedan elegir. Es una distribución teórica, construida sobre variables aleatorias, y sus elementos se obtienen mediante técnicas matemáticas.

 

Función de distribución

 

Distribución teórica

Llamaremos distribución teórica a la correspondiente distribución de probabilidades en una variable aleatoria.

Las principales distribuciones teóricas son:

Uniforme

Una distribución se llama uniforme cuando todas las probabilidades son iguales. Como todas suman 1 (caso discreto), cada una será igual a 1/n.

De Bernouilli

Binomial

De Poisson

Normal

 

 

 

 

 

 

 

 


 

E

Error

De predicción

Es la diferencia entre un valor de Y y su estimación Y' en una recta de regresión (o en una curva de regresión general)

Muestral

 

Típico de estimación

Es la raíz cuadrada de la varianza residual en una operación de estimación.

 

 

Escala

Escala de medida

Es un conjunto básico de modalidades y números (considerados como sus medidas) a partir del cual se construye un procedimiento para medir las restantes modalidades. Así, la escala centígrada de temperaturas se basa en asignar 0º a la temperatura de fusión del agua y 100º a la de ebullición

Escala nominal

Una escala se llama nominal si la única relación que tiene en cuenta es la de igualdad (y su contraria la desigualdad). Suele estar formada por nombres, códigos o números considerados como etiquetas (como el DNI). Así, son nominales los apellidos, la Comunidad Autónoma, el distrito postal, etc.

Escala ordinal

La escala ordinal añade a la nominal la posibilidad de ordenar los datos, es decir, considera las relaciones de mayor y menor, aunque no se plantea una distancia entre unas medidas y otras. La escala de Insuficiente, Suficiente, Bien, Notable y Sobresaliente es ordinal.

Escala de intervalos

Se introduce una medida tipo (o patrón) llamada unidad y se tiene en cuenta cuantas unidades están comprendidas entre dos medidas distintas. Tienen sentido, además de la igualdad y el orden, las diferencias entre dos medidas. Podemos sumar y restar medidas, pero no tienen sentido sus cocientes. Son de intervalo la gran mayoría de las escala de las ciencias experimentales: temperatura, peso, velocidad, intensidad de la corriente eléctrica, etc.

Escala de razón

En esta escala se le da también un sentido a las razones entre dos medidas, es decir, las veces que una medida contiene a la otra. Fue la medida por excelencia de la Geometría griega y se ha trasladado a todas las Ciencias Sociales y de la Naturaleza. Se distingue también por la existencia de un cero verdadero, no convencional. Así, la escala centígrada de temperatura es sólo de intervalo y la Kelvin es de razón.

 

Esperanza

La esperanza matemática de una variable aleatoria discreta es la suma de los productos de sus valores por sus probabilidades. Equivale a la media en una distribución de frecuencias.

 

Estadístico

Se llama estadístico a todo valor numérico extraído mediante cálculos de los datos de una muestra. Normalmente se usa para estimar un parámetro de la población.

Estadístico de contraste

Es la expresión matemática, calculada a partir de la muestra, que nos servirá para tomar la decisión en un contraste de hipótesis.

 

Estimación

Es la operación por la que se asigna a un parámetro de la población el mismo valor que a un estadístico calculado a partir de una muestra.

Estimación puntual

Estimación por intervalos

Al ser la estimación una operación arriesgada, en lugar de apostar por una estimación puntual, se rodea esta de un intervalo de seguridad, que es el Intervalo de confianza.

 

 

Estimador

Es un estadístico calculado en una muestra que estima un parámetro de la población. Los más importantes son los que estiman la media y la varianza.

 

 

 

 

 

 

Extremo inferior

Es el valor mínimo que puede tener un valor incluido en un intervalo  de datos agrupados.

 

Extremo superior

Es el valor máximo posible en un intervalo de datos agrupados. Se considera no alcanzable. Así si un intervalo comprende desde 5 hasta 10, incluiremos en el mismo los valores comprendidos entre estos dos, incluyendo el 5 y sin incluir el 10.

 

 

 

 

 

 


 

F

 

 

Frecuencia

Definición

El número de veces que se repite un valor concreto en una recogida de datos se llama frecuencia absoluta o simplemente frecuencia.

Frecuencia absoluta

Es sinónimo de frecuencia. Se representa por la letra n o por la f, según los distintos textos.

Frecuencia relativa o proporción

Es el cociente de dividir cada frecuencia absoluta entre el total de valores N. Se representa por f o por h.

Frecuencia acumulada

Es el número de datos del conjunto que son menores o iguales a u valor dado. Por tanto, se calculará sumando todas las frecuencias de datos menores o iguales al mismo. Podemos acumular las frecuencias absolutas y también las relativas y los porcentajes.

Frecuencias conjuntas

Son los pares de frecuencias formados en una distribución bidimensional

Frecuencia marginal

Llamaremos frecuencia marginal de un valor de X en una distribución bidimensional X-Y a la que le corresponde a ese valor si no tenemos en cuenta la existencia de Y. En la práctica coincide con la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor.

Frecuencias condicionadas

Son las frecuencias que posee una variable si sólo consideramos un valor (o varios) de la otra variable en una distribución bidimensional X-Y. En la práctica se traduce a considerar sólo una fila o sólo una columna, según el valor elegido.

 

Función

Función de distribución

Llamaremos función de distribución F(x) de una variable aleatoria, a la formada por las probabilidades acumuladas, es decir: F(m) = Prob(x≤m) (El símbolo Prob designa a la probabilidad de que sea cierta la comparación del paréntesis)

 

 


 

G

Gauss

Distribución de Gauss

Sinónimo de distribución normal.

 


H

Hipótesis

Hipótesis nula

Llamaremos Hipótesis nula H0. a la afirmación que hacemos sobre los parámetros de una población y cuya validez deseamos contrastar.

Hipótesis alternativa

Frente a la hipótesis nula podemos oponer otra, a la que llamamos hipótesis alternativa H1. Suele ser una desigualdad que se opone a la igualdad que afirmamos.

 

Test de hipótesis

 

Histograma

Representación gráfica de una distribución de datos agrupados en intervalos. Es similar al diagrama de barras, pero con los rectángulos adosados y de áreas proporcionales a las frecuencias de los intervalos.

 


 

 

I

 

Índice

Índice simple de base fija

Un término de la serie se identifica (convencionalmente) con el número 1, o el 100%. Diremos que este valor y0 posee el índice 1. Para el resto de valores se define el índice como el cociente entre su propio valor yi y el valor y0 identificado como de índice 1.

Índice simple de base variable (o en cadena)

Tiene la misma definición que el anterior, pero en lugar de elegir un valor y0 como base, en el cociente se toma el término anterior yi-1.

Índice compuesto

Cuando se desea comparar la evolución de varios conjuntos a la vez, se definen índices compuestos, obtenidos combinando los índices simples. Una técnica sencilla es sustituir los múltiples valores de cada término por su media ponderada.

 

Inferencia

Inferencia estadística

Es la ciencia que estudia las operaciones de estimación

 

Insesgado

Un estimador es insesgado cuando su media muestral coincide con el parámetro

 

Intervalo

Escala de intervalo

 

Intervalos en distribuciones de frecuencias

Si la variable que se estudia es continua, o discreta con muchos valores distintos, se organizarán sus datos en forma de intervalos, que son conjuntos formados por los números reales comprendidos entre un máximo y un mínimo.

Intervalo de confianza

Es el intervalo del que se rodea una estimación puntual acompañada de una probabilidad de que el parámetro estimado pertenezca a dicho intervalo.


J

 


K

 

 


 

L

 

Leptocúrtica

Distribución de frecuencias con gran curtosis.


Ley

Ley de los grandes números

"Las frecuencias observadas tienen como límite las probabilidades cuando n tiende al infinito"

 

 


M

 

Marca de clase

Promedio entre los dos extremos (o punto medio de un intervalo de datos agrupados), que se elige como representante de todos los valores comprendidos.

 

Media

Media aritmética

Llamaremos media aritmética o simplemente media al valor resultante de sumar todos los datos y después dividir el resultado entre el número de ellos.

Media geométrica

Es la raíz enésima del producto de los datos. Se usa cuando el producto es más representativo que la suma, como ocurre cuando se promedian cocientes o razones.

Media armónica

Es la media diseñada para promediar cantidades inversamente proporcionales y equivale al inverso de la media de los inversos de x

Media cuadrática

Es muy usada en la teoría de errores y en estudios sobre ajustes de datos. Es la raíz cuadrada de la media de los cuadrados de los datos.

Media ponderada

En esta media se multiplica cada dato por un peso (valor numérico), se suman todos los productos  se divide el resultado entre la suma e los pesos.

 

Mediana

Llamaremos mediana de un conjunto de datos de tipo ordinal (o de intervalo o razón) al dato que ocupa el punto medio de la distribución ordenada de datos. Es decir, es el punto que divide a la distribución en dos partes iguales: el total de frecuencias de los datos inferiores a la mediana es igual al de las frecuencias de los datos mayores.

 

Medida

Es la operación de asignar un número a cada una de las modalidades de una característica, convirtiendo algunas relaciones entre modalidades en sus correspondientes relaciones entre los números que representan su medida.

Medida directa

Llamaremos medida directa en cualquier estudio o experimento, a aquella que se ha obtenido directamente sobre los objetos, individuos o entidades con los instrumentos usuales de medida.

Medida diferencial

Dada una medida directa X, llamaremos medida diferencial x a su diferencia con la media del grupo.

Medida típica Z

Si se divide una medida diferencial entre la desviación típica del grupo, se obtiene la medida o puntuación típica Z.

 

Mesocúrtica

Distribución de frecuencias con curtosis media.

 

 

Mínimos cuadrados

 

Moda

Llamaremos Moda al valor de la distribución de datos que presente una frecuencia mayor.

 

Modalidad

Las distintas formas de presentarse una característica se llaman modalidades. Por ejemplo, 1,82 y 1,65 cm. son dos modalidades de la característica altura, y varón y mujer dos modalidades de la característica sexo

 

Muestra

Definición

Es un subconjunto de la población que es más fácil de estudiar que la población.

 

Muestreo

Definición

Es un conjunto de operaciones o técnicas dirigidos a la elección de la muestra adecuada.

 

 

 


N

 

Nivel de confianza

Es la probabilidad de que un valor estimado pertenezca al intervalo de confianza que rodea a la estimación. Los más usados son 90%, 95% y 99%

 

Nivel de significación

La probabilidad de que unos valores caigan en la región de rechazo n un contraste de hipótesis, a pesar de que H0 sea verdadera, se conoce con el nombre de nivel de significación a,

 

Nominal

Escala Nominal

 

Normal

Distribución normal

La distribución Normal o ley de Gauss es la más usada de las distribuciones teóricas continuas. La popularizaron Gauss, en el estudio de los errores de las medidas, y también Laplace, pero ya la había usado Moivre como límite de la binomial.

Por su característica forma, se la conoce también como campana de Gauss. Aquí sólo nos interesa su definición y uso dentro de la Estadística. La expresión de su función de densidad con media 0 y desviación típica 1 es

 

 


 

O

 

Ordenada en el origen

Su significado más usual es el del término independiente de la ecuación de la recta de regresión. Se puede representar como el corte de esa recta con el eje Y.

 


 

P

 

Parámetro

Un número que caracterice o describa una población recibe el nombre de parámetro. La estatura media de los alumnos y alumnas de 16 años es un parámetro de esa población, o la Renta per cápita de la población española

 

Pendiente

Su significado más usual es el del coeficiente de la variable X en la recta de regresión lineal.

 

Percentil

Similares a los deciles, P1, P2, P3, ......P99, son 99 números que dividen la distribución en 100 partes iguales.

 

Poisson

Esta distribución, llamada de los sucesos raros, es el caso límite de la binomial, con las siguientes condiciones:
a) El número de intentos n debe tender a infinito.
b) La propiedad p debe ser muy pequeña (de ahí el nombre de suceso raro)
c) El producto de n.p ha de ser constante, y al que llamaremos m.

 

Platicúrtica

Distribución de frecuencias con poca curtosis.

 

 

Población

Llamaremos población a un conjunto bien definido por ciertas características que deseamos estudiar: La población de una Comunidad Autónoma, los aprobados de 2º de Bachillerato en mi Centro, los profesores de E.S.O. en la Delegación Norte, etc.

 

Porcentaje

Equivale a la frecuencia relativa expresada como tanto por ciento o porcentaje.

 

Predicción

Llamaremos pronóstico o predicción para un valor de X a su imagen Y´en la recta de regresión. Esta definición se extiende a cualquier otra curva de ajuste de datos.

 

Proporción

Es sinónimo de frecuencia relativa

 

Puntual

La estimación se llama puntual cuando identificamos, sin más, el parámetro con el estadístico. En ese caso añadiremos un acento circunflejo al parámetro para representar que estamos estimando.

 

P-valor

El p-valor de un resultado en un experimento es la probabilidad de obtener ese valor u otros menores (o mayores, según sea el experimento) si se satisface la hipótesis nula.

 

 


 

R

 

Rango

Si se fija un valor mínimo y otro máximo, de forma que todos los datos de un recuento estén comprendidos entre ellos (a veces esto no se garantiza y quedan intervalos abiertos), la diferencia entre ambos se denomina rango de los datos.

Rango percentil

Es la medida inversa del percentil. Dada una medida concreta, como puede ser la calificación de una alumna en Música, su rango percentil equivale al percentil más cercano a esa calificación. Un alumno que tenga rango percentil de 78 es aquel en el que el 78% de sus compañeros tiene una puntuación inferior a él.

 

Razón

Escala de razón

 

Regresión

Recta de regresión

La recta de regresión de Y sobre X es aquella que minimiza la suma de cuadrados de las diferencias entre los valores de Y y los correspondientes Y’ medidos en dicha recta.

 

 


 

S

Sesgo

Sinónimo de asimetría

 

Sumas de cuadrados

En ANOVA

Total

Es la suma de las diferencias al cuadrado entre los datos experimentales y su media.

Intragrupos

Representa la suma de cuadrados corregidos que se da dentro de los grupos, es decir, las diferencias de los datos entre la media de cada grupo.

Intergrupos

Es la suma ponderada de las diferencias al cuadrado entre as medias de los grupos y la media total.

Interacción

En un modelo con varios factores representa la influencia mutua entre ellos.

 

 

Supuesto

Es una afirmación que se hace de una población en la Estadística Inferencial: si es es simétrica, normal, continua… y sobre la muestra, si es aleatoria simple, es de tamaño mayor que 30…

 


 

T

 

T de Student

Distribución que sigue la estimación de la desviación típica.

Teorema

Teorema central del límite

Si las variables x1, x2, x3,... xn, tienen todas la misma distribución, con los mismos valores m para la media y s para la desviación típica, la variable

sigue asintóticamente la distribución normal N(0,1).

 

Test

Test de hipótesis

Un test de hipótesis (o contraste) es un proceso, compuesto de varios pasos muy concretos, que nos permite aceptar o rechazar una hipótesis en términos estadísticos.

 

Tipificación

Es la operación de convertir una medida en típica restándole la media y dividiendo entre la desviación típica.

 


U

 

Uniforme

Distribución uniforme


 

V


Variable

Variable aleatoria

Llamaremos Variable aleatoria simple (discreta) a un conjunto de valores X1, X2, X3, ...,Xn (llamados también sucesos) a los que les corresponden unos números (llamados probabilidades) , p1, p2, p3, ..., pn que cumplen:

a) Todas las probabilidades son positivas o nulas.
b) La suma de todas ellas es igual a la unidad

 

 

Variación

Coeficiente de variación

Es el cociente de dividir la desviación típica entre la media.

 

 

Varianza

Definición

Es el cociente de dividir la suma de los cuadrados de las desviaciones de los datos respecto a la media entre el número total de datos. Su raíz cuadrada es la desviación típica.

Explicada

Es la parte de una varianza que se considera producida por un factor determinado que influya en un experimento. En la regresión lineal es la varianza de las predicciones.

Total

Es la varianza total observada en un experimento, independientemente de las variables que puedan influir en los resultados.

Residual

Es la diferencia entre la varianza total y la explicada.

Análisis de Varianza

La técnica del Análisis de la Varianza consiste en descomponer la variabilidad de una población (representada por su varianza) en diversos sumandos según los factores que intervengan en la creación de esa variabilidad.