ESTADÍGRAFOS, MEDIDAS DESCRIPTIVAS ó DE RESUMEN

1. DEFINICION:

Después de haber ordenado y descrito un conjunto de datos, aún el análisis resulta todavía un tanto incompleto; es necesario entonces resumir la información y facilitar así su análisis e interpretación utilizando ciertos indicadores.

A estos indicadores se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN, permiten hallar un valor numérico, el mismo que representa a toda la población o muestra en estudio.

2. CLASIFICACIÓN:

Las medidas de resumen más importantes se clasifican en tres grupos:

- Medidas de tendencia central : Media, mediana, moda

- Medidas de posición : Deciles, cuartiles, percentiles

- Medidas de dispersión : Desviación standard, varianza,

coeficiente de variación

2.1. MEDIDAS DE TENDENCIA CENTRAL: Son los valores numéricos que indican el "centro" de un conjunto de datos, describen a todo el conjunto señalando una característica que destaca. Los estadígrafos de tendencia central más importantes son:

A. MEDIA ARITMETICA O PROMEDIO ARITMÉTICO: Es el punto de equilibrio de una serie de datos, el valor que tendrían todos los datos de no existir diferencias entre ellos.

a) Para datos no agrupados: Se obtiene sumando los valores de todos los datos y dividiendo esta suma entre el número total de datos. La fórmula es:

S x _i

i = 1

X = -----------

ⁿ

b) Para datos agrupados: La media se obtiene sumando el producto que se obtiene del valor medio del intervalo de clase por la frecuencia de esa clase y dividiendo esta suma entre el número total de datos. El valor medio del intervalo de clase se obtiene sumando el límite inferior más el límite superior de la clase y dividiendo esta suma entre dos. La fórmula es:

S n _h . x _h

--- h=1

X = ------------------

å n _h

Ejemplos

La media tiene como ventajas cuando los datos están distribuidos normal o simétricamente, es de gran estabilidad porque toma en cuenta todos los datos y nos permite estimar y probar parámetros en inferencias.

Sin embargo, también tiene algunas desventajas como que al incluir todos los datos, puede ser afectado por valores extremos, por ello no es recomendable calcular la media en datos agrupados que tienen clases abiertas en los extremos.

B. MEDIANA: Es un valor numérico de posición central, que nos determina que el 50 % de las observaciones sea menor o igual que él y el otro 50 % sea mayor o igual. Para obtenerlo se deben seguir los siguientes pasos:

a) Para datos no agrupados:

A. Ordenar los datos de menor a mayor.

B. Determinar la posición con:

pMd = n+1 = E + f (Entero + fracción)

C. Calcular el valor de la mediana con:

vMd = x_E + fD donde D = (x_E+1 - x_E)

b) Para datos agrupados:

A. Obtener N_h (número de datos acumulado)

B. Determinar la posición de la mediana (y marcar la clase que la contiene), con:

pMd = N_h

C. Calcular el valor de la mediana con:

Ejemplos

vMd = L_Mdi + I_Md (N_h/2) - N_(Md-1)

n_Md

Donde:

L_Mdi = Límite real inferior (por redondeo) de la clase que contiene la mediana

I_Md = Tamaño del intervalo de la clase Mediana.

N_(Md-1) = Número de datos acumulado hasta la clase anterior a la clase mediana

n_Md = Número de datos de la clase mediana.

La mediana no está afectada por valores extremos, es útil cuando los datos agrupados tienen clases abiertas en los extremos. Se aplica también a variables de la escala ordinal.

C. MODA: Es el valor que más se repite, ó, en una distribución de frecuencias, es el valor de más alta frecuencia. Si hay dos o más valores con esta característica, se dice entonces que el conjunto de datos es bi o multimodal. Si la cantidad de elementos que se repiten es mayor que n/2, entonces se afirma que no hay moda.

a) Para datos no agrupados: La moda es el valor más frecuente o el que más se repite.

b) Para datos agrupados:

A. La posición de la moda está en la clase de frecuencia máxima, a ella se le denomina clase moda.

pMo = n_máx

B. El valor de la moda se calcula con:

vMo = L_Moi + I_Mo D1

D1 + D2

Ejemplos

Donde:

L_Moi = Límite real inferior (por redondeo) de la clase moda

I_Mo = Tamaño del intervalo de la clase moda

D₁ = n_Mo - n_(Mo-1)

D₂ = n_Mo - n_(Mo+1)

n_Mo=Valor de la clase moda

n_(Mo-1)= Valor de la clase anterior a la clase moda

n_(Mo+1)= Valor de la clase posterior a la clase moda.

2.2. MEDIDAS DE POSICION RELATIVA: Llamados también CUANTILES, son aquellos valores de las variables que dividen una distribución de frecuencias o serie de números en 4, 10 ó 100 partes iguales, tomando la denominación de QUARTILES, DECILES ó PERCENTILES. Determinan la dispersión alrededor de la mediana. Se obtienen de la siguiente manera:

a) Para datos no agrupados:

A. Ordenar los datos de menor a mayor.

B. Encontrar la posición con:

pCj = jn + 2 = E + f

Donde M = número de partes en que se divide la distribución

C. Calcular el valor con:

vCj = x_E + fD donde D = (x_E+1 - x_E)

MEDIDA SIMBOLO POSICION PARTES

------------------------------------------------------------------------------

CUANTILES C j M

CUARTILES Q 1, 2, 3 4

DECILES D 1, 2, 3,....8, 9 10

PERCENTILES P 1, 2, 3,...98, 99 100

-----------------------------------------------------------------------------

Ejemplos

b) Para datos agrupados: Se realizan los siguientes pasos:

A. Obtener N_h (número de datos acumulado)

B. Determinar la posición del cuantil j (y marcar la clase que lo contiene), con:

pCj = jN_h

C. Calcular el valor del cuantil con:

vCj = L_Cji + I_Cj (jN_h/M) - N_(Cj-1)

n_Cj

Donde:

L_Cji = Límite real inferior (por redondeo) de la clase que contiene el cuantil j

I_Cj = Tamaño del intervalo de la clase cuantil j

N_(Cj-1) = Número de datos acumulado hasta la clase anterior a la clase cuantil j

N_Cj = Número de datos de la clase cuantil j.

2.3. MEDIDAS DE DISPERSION: Son aquellas que miden cuánto se alejan de la media cada uno de los valores de la variable.

A. VARIANZA: Es el promedio de la suma de las desviaciones al cuadrado con respecto a la media. Sirve para comparar dos o más distribuciones. Se obtiene de la siguiente manera:

a) Para datos no agrupados:

S (x _i-x)²

i = 1

S²= n

Ejemplos

b) Para datos agrupados:

S² = I² [N S n_h d_h² - ( S n_h d_h)²]

N²

B. DESVIACION STANDARD: Es igual a la raíz cuadrada de la varianza, tiene algunos principios que mencionamos:

a) A mayor dispersión alrededor de la media, mayor valor de la desviación standard.

b) Las desviaciones extremas con respecto a la media, pesan mucho para determinar el valor de la desviación standard.

c) Para distribuciones normales:

El 68,97 % de las observaciones está en X ± 1 S

El 95,45 % de las observaciones está en X ± 2 S

El 99,73 % de las observaciones está en X ± 3 S

C. COEFICIENTE DE VARIACIÓN: Mide la homogeneidad de una muestra.

CV = S x 100

X .

Se da en porcentaje, el resultado es la heterogeneidad de la población; el resto de 100 % es la homogeneidad