1.
DEFINICION:
Después
de haber ordenado y descrito un conjunto de datos, aún el análisis resulta
todavía un tanto incompleto; es necesario entonces resumir la información y
facilitar así su análisis e interpretación utilizando ciertos indicadores.
A
estos indicadores se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN,
permiten hallar un valor numérico, el mismo que representa a toda la población
o muestra en estudio.
2.
CLASIFICACIÓN:
Las
medidas de resumen más importantes se clasifican en tres grupos:
- Medidas de tendencia central :
Media, mediana, moda
- Medidas de posición
: Deciles,
cuartiles, percentiles
- Medidas de dispersión : Desviación standard, varianza,
coeficiente de variación
2.1.
MEDIDAS DE TENDENCIA CENTRAL:
Son
los valores numéricos que indican el "centro" de un conjunto de
datos, describen a todo el conjunto señalando una característica que
destaca. Los estadígrafos de tendencia central más importantes son:
A.
MEDIA
ARITMETICA O PROMEDIO ARITMÉTICO:
Es el punto de equilibrio de una serie de datos, el valor que tendrían todos
los datos de no existir diferencias entre ellos.
a)
Para
datos no agrupados:
Se obtiene sumando los valores de todos los datos y dividiendo esta suma entre
el número total de datos. La fórmula es:
n
S
x i
i
= 1
n
b)
Para
datos agrupados:
La media se obtiene sumando el producto que se obtiene del valor medio del
intervalo de clase por la frecuencia de esa clase y dividiendo esta suma entre
el número total de datos. El valor medio del intervalo de clase se obtiene
sumando el límite inferior más el límite superior de la clase y dividiendo
esta suma entre dos. La fórmula es:
n
S
n h . x h
---
h=1
å
n
h
La
media tiene como ventajas cuando los datos están distribuidos normal o simétricamente,
es de gran estabilidad porque toma en cuenta todos los datos y nos permite
estimar y probar parámetros en inferencias.
Sin
embargo, también tiene algunas desventajas como que al incluir todos los
datos, puede ser afectado por valores extremos, por ello no es recomendable
calcular la media en datos agrupados que tienen clases abiertas en los
extremos.
B.
MEDIANA:
Es un valor numérico de posición central, que nos determina que el 50 % de
las observaciones sea menor o igual que él y el otro 50 % sea mayor o igual.
Para obtenerlo se deben seguir los siguientes pasos:
a)
Para
datos no agrupados:
A.
Ordenar los datos de menor a mayor.
B.
Determinar la posición con:
pMd
= n+1
= E + f (Entero +
fracción)
2
C.
Calcular el valor de la mediana con:
vMd
= xE + fD
donde
D
= (xE+1 - xE)
b)
Para
datos agrupados:
A.
Obtener Nh (número de datos acumulado)
B.
Determinar la posición de la mediana (y marcar la clase que la
contiene), con:
pMd
= Nh
2
C. Calcular el valor de la mediana con:
vMd
= LMdi
+ IMd
(Nh/2)
- N(Md-1)
nMd
Donde:
LMdi
= Límite real inferior (por redondeo) de la clase que contiene la
mediana
IMd
= Tamaño del intervalo de la clase Mediana.
N(Md-1)
= Número de datos acumulado hasta la clase anterior a la clase mediana
nMd
= Número de datos de la clase mediana.
La
mediana no está afectada por valores extremos, es útil cuando los datos
agrupados tienen clases abiertas en los extremos. Se aplica también a
variables de la escala ordinal.
C.
MODA:
Es el valor que más se repite, ó, en una distribución de frecuencias, es el
valor de más alta frecuencia. Si hay dos o más valores con esta característica,
se dice entonces que el conjunto de datos es bi o multimodal. Si la cantidad
de elementos que se repiten es mayor que n/2, entonces se afirma que no hay
moda.
a)
Para datos no agrupados: La moda es el valor más frecuente o el que más
se repite.
b)
Para datos agrupados:
A.
La posición de la moda está en la clase de frecuencia máxima, a ella
se le denomina clase moda.
pMo
= nmáx
B.
El valor de la moda se calcula con:
vMo
= LMoi
+ IMo
D1
D1 + D2
Donde:
LMoi
= Límite
real inferior (por redondeo) de la clase moda
IMo
= Tamaño
del intervalo de la clase moda
D1
= nMo
- n(Mo-1)
D2
= nMo
- n(Mo+1)
nMo
=
Valor
de la clase moda
n(Mo-1)
=
Valor
de la clase anterior a la clase moda
n(Mo+1)
=
Valor
de la clase posterior a la clase moda.
2.2.
MEDIDAS DE POSICION RELATIVA:
Llamados
también CUANTILES, son aquellos valores de las variables que dividen una
distribución de frecuencias o serie de números en 4, 10 ó 100 partes
iguales, tomando la denominación de QUARTILES, DECILES ó PERCENTILES.
Determinan la dispersión alrededor de la mediana. Se obtienen de la siguiente
manera:
a)
Para datos no agrupados:
A.
Ordenar los datos de menor a mayor.
B.
Encontrar la posición con:
M
pCj
= jn +
2 =
E + f
M
Donde
M = número de partes en que se divide la distribución
C.
Calcular el valor con:
vCj
= xE + fD donde
D = (xE+1 - xE)
CUARTILES
Q
1, 2, 3
4
DECILES
D
1, 2, 3,....8, 9
10
PERCENTILES
P
1, 2, 3,...98, 99
100
b)
Para datos agrupados: Se realizan los siguientes pasos:
A.
Obtener Nh (número de datos acumulado)
B.
Determinar la posición del cuantil
j (y marcar la clase que lo contiene), con:
pCj
= jNh
M
C.
Calcular el valor del cuantil con:
vCj
= LCji
+ ICj
(jNh/M)
- N(Cj-1)
nCj
Donde:
LCji
= Límite
real inferior (por redondeo) de la clase que contiene el cuantil j
ICj
= Tamaño
del intervalo de la clase cuantil j
N(Cj-1)
= Número
de datos acumulado hasta la clase anterior a la clase cuantil j
NCj
= Número
de datos de la clase cuantil j.
2.3.
MEDIDAS DE DISPERSION:
Son
aquellas que miden cuánto se alejan de la media cada uno de los valores de la
variable.
A.
VARIANZA:
Es el promedio de la suma de las desviaciones al cuadrado con respecto a
la media. Sirve para comparar dos o más distribuciones. Se obtiene de la
siguiente manera:
a)
Para datos no agrupados:
n
S
(x i - x)2
i
= 1
b)
Para datos agrupados:
S2
= I2 [N
S
nh dh2 - ( S
nh dh)2]
N2
B.
DESVIACION
STANDARD:
Es igual a la raíz cuadrada de la varianza, tiene algunos principios que
mencionamos:
a)
A mayor dispersión alrededor de la media, mayor valor de la desviación
standard.
b)
Las desviaciones extremas con respecto a la media, pesan mucho para
determinar el valor de la desviación standard.
c)
Para distribuciones normales:
El
68,97 % de las observaciones está en X ± 1 S
El
95,45 % de las observaciones está en X ± 2 S
El
99,73 % de las observaciones está en X ± 3 S
C.
COEFICIENTE
DE VARIACIÓN:
Mide la homogeneidad de una muestra.
CV
= S
x 100
X
.
Se
da en porcentaje, el resultado es la heterogeneidad de la población; el resto
de 100 % es la homogeneidad