Teste de Normalidade [Inicio][Índice][Próximo][Anterior]

2.5.-TESTE DE NORMALIDADE

Para os testes descritos anteriormente verifica-se como hipótese necessária à sua aplicação a normalidade dos dados. Entre os muitos testes habituais, apresentamos dois e vamos começar por estudar um de simples compreensão, baseado na comparação da distribuição de freqüências cumulativas com a função de distribuição sob hipótese. A curva da função de distribuição de uma normal tem uma configuração em S.

Função de distribuição normal

Se utilizarmos uma escala particular no eixo das ordenadas, (papel de probabilidade normal), a representação gráfica de FX(x) transforma-se numa reta. Deste modo dado um conjunto de dados, representando-os através desta escala, a indicação de normalidade será tão mais evidente, quanto mais próxima de uma reta for a sua nuvem de pontos.

Exemplo: Considere-se o seguinte conjunto de dados:
109, 89, 99, 99, 107, 111, 86, 74, 115, 107, 134, 113, 110, 88, 104

Dados Freqüência Cumulativa
Absoluta
Freqüência Cumulativa
Relativa (%)
74
1
6.3
86
2
12.5
88
3
18.8
89
4
25.0
99
6
37.5
104
7
43.8
107
9
56.3
109
10
62.5
110
11
68.8
111
12
75.0
113
13
81.3
115
14
47.5
134
15
93.8

freqüência cumulativa relativa= 100xfrequência cumulativa / (n+1).

A distribuição dos pontos (x, freqüência cumulativa relativa de x), num papel de probabilidade normal, é a seguinte:
Papel de Probabilidade Normal

Salienta-se que este processo dá-nos apenas uma indicação, uma vez que é baseado numa apreciação visual, da proximidade a uma distribuição normal. Existem outros métodos mais eficientes dos quais é de realçar o teste de Kolmogorov-Smirnov.

Teste de Kolmogorov-Smirnov (Goodness of fit)
O princípio deste teste baseia-se na comparação da curva da freqüência cumulativa dos dados, com a função de distribuição teórica em hipótese. Quando as duas curvas se sobrepõem a estatística de teste é calculada através da máxima diferença entre ambas. A magnitude da diferença estabelece-se probabilisticamente, segundo a lei de probabilidade dessa estatística, que se encontra tabelada. Se os dados experimentais se afastam significativamente do que é esperado segundo a distribuição em hipótese, então as curvas obtidas devem encontrar-se igualmente afastadas, e por um raciocínio análogo, se o ajustamento ao modelo hipotético é admissível, as curvas têm um delineamento próximo.

Os dois quadros seguintes apresentam duas possíveis situações, onde se pretende ilustrar um bom e mau ajustamento.
Kolmogorov-Smirnov

Notas : Para testar a hipótese de normalidade os dados são centrados e reduzidos. A freqüência relativa de cada elemento é igual a 1/n.

Exemplo:
Realizaram-se oito titulações, tendo obtido os resultados:
25.13, 25.02, 25.11, 25.07, 25.03, 24.97, 25.14 e 25.09
Estes resultados provêm de uma população com distribuição normal de parâmetros valor médio =25 e desvio padrão=0.05?

A standarização dos dados x-25/0.05 conduz aos valores:
2.6, 0.4, 2.2, 1.4, 0.6, -0.6, 2.8 e 1.8
Estes valores depois de ordenados, calculada a freqüência cumulativa e a função de distribuição para uma normal reduzida, correspondem à seguinte tabela:
x-25/0.05 Frequência
Cumulativa
Função de
Distribuição
Diferença
Valor Absoluto
-0.6 1/8= 0.125 0.2743 0.1493
0.4 2/8= 0.250 0.6554 0.4054
0.6 3/8= 0.375 0.7257 0.3507
1.4 4/8= 0.500 0.9192 0.4192 MAX
1.8 5/8= 0.625 0.9641 0.3391
2.2 6/8= 0.750 0.9861 0.2361
2.6 7/8= 0.875 0.9953 0.1200
2.8 1 0.9974 0.0026

Comparando o valor observado = 0.419, com o valor crítico para um número de observações igual a 8, 0.288, rejeitamos a hipótese nula.

2.6.-IDENTIFICAÇÃO DE OUTLIERS

É comum em trabalho experimental vermo-nos confrontados com situações em que, ao obter ou analisar um conjunto de dados, deparamos com um ou mais valores que aparentemente diferem razoávelmente dos outros. Esses valores produzem por vezes, dependendo da amplitude do seu afastamento, conclusões erróneas e a distorção de parâmetros. As suas causas podem ser variadas, como sejam erros humanos ou instrumentais, ou outro tipo de situações anómalas. Da sua identificação depende muitas vezes a validade das conclusões que são obtidas. A média e o desvio padrão dependem da remoção ou não destes valores, e uma vez que a discussão sobre a acurácia e precisão dos dados depende destes parâmetros, torna-se evidente o cuidado a ter quanto à decisão relativamente à sua eliminação ou não, devendo sempre ser fundamentada a opção tomada. Convem frisar que ao eliminar estes valores podemos igualmente incorrer num erro, como por exemplo sobrestimar a precisão dos dados, ou aceitar um modelo que não é válido, sendo esse presuposto a base da classificação do outlier. O simples facto de um valor se encontrar afastado dos demais não indica por si só que é um valor mal observado ou errado, esse valor pode ser um valor correcto. Em primeira ou última instância, a experiência, bom senso e honestidade são ferramentas tão válidas quanto os métodos estatísticos. Quando for necessária em primeira instância uma justificação assente em príncipios matemáticos, o teste Q de Dixon, pode constituir argumentação para defender as opções tomadas. Este teste é baseado no quociente entre o módulo da diferença em relação ao valor mais próximo, e a amplitude de observações.

Q=|valor suspeito-valor mais próximo|/(valor máximo-valor mínimo)

Os valores críticos para Q encontram-se tabelados, eliminando-se o outlier se o quociente observado exceder este valor crítico. A tabela seguinte indica os valores para alfa igual a 5% .
Dimensão da amostra 4 5 6 7 8 9 10
Valor crítico alfa= 0.05 0.831 0.717 0.621 0.570 0.524 0.492 0.464
Exemplo:
Ao analisar quatro amostras de água de um rio, obtiveram-se os seguintes valores de nitrato (mg/l) : 0.403, 0.410, 0.401, 0.380.
O último valor é suspeito: deverá ser rejeitado?

Q = |0.380 - 0.401| / |0.410 - 0.380| = 0.7

O valor crítico para n=4 é 0.831, superior a 0.7, logo não devemos rejeitar o valor 0.380.

Next Page Próxima

previous page Anterior

Home Page Inicio