Site hosted by Angelfire.com: Build your free website today!

 

Pourquoi la statistique?
Savoir quand utiliser la statistique et comment organiser ses données. statistique, méthode scientifique, expérience, expérimental, données, analyse, saisie.


La statistique concrètement
Lien entre la méthode scientifique et la statistique
Définition de données
Comment saisir les données
Liens

 

  haut de la page La statistique concrètement


Sans trop entrer dans les détails techniques, voici des occasions où la statistique peut être utilisée:

  • Pour planifier des expériences scientifiques : choisir un plan expérimental adéquat en fonction des objectifs visés. Ces objectifs peuvent être de comparer des traitements (médicaux par exemple), modéliser la relation entre des variables, faire de la prévision à partir d'un tel modèle.
  • Pour analyser les données issues d'une expérience.
  • Pour élaborer un questionnaire de sondage.
  • Choisir les gens qui devront répondre au sondage.
  • Pour s'assurer que des items produits en série soient conformes à leurs spécifications.

 

  haut de la page Lien entre la méthode scientifique et la statistique


En gros, la méthode scientifique consiste à

  1. se poser une question
  2. formuler une hypothèse
  3. construire un protocole d'expérience
  4. constater les résultats de l'expérience

Idéalement, la statistique devrait intervenir à partir de la 3e étape. Si une personne qui construit un protocole veut obtenir des données facilement analysables et un maximum d'information selon les limites des ses ressources, elle devrait collaborer avec un expert en statistique.

À la 4e étape, l'aide d'un statisticien est souhaitable à partir du moment où la personne qui a réalisé l'expérience doute qu'elle utilise bel et bien la méthode appropriée pour analyser ses données. Il serait déplorable de gaspiller par une analyse erronée, ou par une bonne analyse mal interprétée, l'information acquise au bout d'une longue période ou d'un gros budget, n'est-ce pas ?

Les prochaines sections s'adressent à quiconque aura à compiler les résultats d'une expérience, par conséquent, peut-être à collaborer avec un statisticien. Ici, un sondage est considéré comme un type d'expérience.

 

  haut de la page Définition de données


Dans le jargon statistique, on appelle "jeu de données" un tableau qui contient l'information recueillie au cours d'une expérience. Chaque ligne du tableau est appelée une "observation" et chaque colonne est appelée une "variable". C'est la même chose, dans le jargon informatique, qu'une "table" où les lignes sont des "enregistrements" et les colonnes des "attributs".

Les principales catégories de variables sont :

  • numérique continue
  • numérique discrète
  • alphanumérique

Une variable numérique continue peut prendre n'importe quelle valeur dans l'ensemble des nombres réels. Les pourcentages, fractions et ratios entrent dans cette catégorie de variable.

Une variable numérique discrète va habituellement pouvoir prendre des valeurs dans l'ensemble des nombres entiers (0, 1, 2, 3, ...).

Une variable alphanumérique va avoir des chaînes de caractères (string) comme valeurs. Les caractères pouvant être, entre autres, des lettres ou des chiffres.

Il y a un exemple de jeu de données dans le fichier gravite.txt. Ce sont les données qui pourraient être enregistrées, admettons, si on mesurait le temps qu'un objet met à atteindre des hauteurs fixes si on le laissait tomber 4 fois d'une hauteur de 2m. En prenant des mesures à 10 hauteurs différentes, il en résulterait 40 observations et 3 variables. On pourrait utiliser ces données telles quelles pour tenter de modéliser la relation le temps et la hauteur. Une autre façon de présenter les données qui aurait été acceptable est donnée dans le fichier gravite2.txt, où les mesures des 4 essais se retrouvent dans des variables différentes.

La variable "essai" dans la première version du jeu de données est une variable numérique discrète. Les variables "hauteur", "temps" et "temps1" à "temps4" sont des variables numériques continues.

 

  haut de la page Comment saisir les données


L'élément le plus important, et qui m'a fait perdre le plus de temps, dans les données est la façon de coder les valeurs manquantes.

SVP coder les valeurs manquantes par une valeur que la variable ne peut pas prendre. Et ne pas utiliser plus d'un code de valeur manquante par variable, si possible.

Quand on me le demande, je suggère toujours de prendre le point '.' comme code de valeur manquante. C'est un code que SAS, SPSS, Stata, R et S-PLUS vont reconnaître automatiquement. De plus, lorsque qu'une variable numérique se retrouve involontairement stockée dans un format alphanumérique, il est aisé de la reconvertir lorsque cette convention est utilisée.

Voici des exemples de résultats et une manière de les saisir.

Tableau d'effectifs 2 x 2
Expérience à 2 facteurs avec 2 répétitions
Split-plot avec 2 blocs


Tableau d'effectifs 2 x 2, les données proviennent du livre "Statistique exploratoire multidimensionnelle" de Lebart, Morineau et Piron.

  Couleur des cheveux
brunblond
Couleur des yeux marron313
bleu944

Jeu de données équivalent :

couleur_cheveuxcouleur_yeuxnombre
brunmarron31
brunbleu9
blondmarron3
blond bleu 44


Expérience à deux facteurs avec deux répétitions. Les données proviennent du livre "Design and Analysis of Experiements" de Montgomery. Les mesures sont la force nécessaire pour briser un matériau, 4 machines produisent le matériau et 3 personnes les font fonctionner (une personne à la fois).

  Machine
1234
Opérateur 1 109
110
110
115
108
109
110
108
2 110
112
110
111
111
109
114
112
3 116
114
112
115
114
119
120
117

Jeu de données équivalent :

machineoperateurforce
11109
11110
12110
12112
13116
13114
21110
21115
22110
22111
23112
23115
31108
31109
32111
32109
33114
33119
41110
41108
42114
42112
43120
43117


Plan à unités divises (split-plot) qui compare 3 méthodes d'enseignement avec les notes obtenues en répondant à 4 devoirs dans 2 écoles.


  Méthode d'enseignement
1 2 3
École 1 évaluation A évaluation B évaluation A évaluation B évaluation A évaluation B
65  76  81
75  66
100  85  97
90  87
69  87  56
54  85  69
75  75  96
53  66  76
64  62  68
86  73
73  77  73
61
évaluation C évaluation D évaluation C évaluation D évaluation C évaluation D
72  100  67
79  77
62  69  71
93  84
58  44  85
68  54  71
74  83  83
76  79  77
77  73  80
71  76
78  93  70
73  70
2 évaluation A évaluation B évaluation A évaluation B évaluation A évaluation B
84  53  62
63  83  80
77  54  41
76  87  57
63  73  72
68
66  65  65
67  80
49  69  60
83  66
85  54  80
60  65  82
évaluation C évaluation D évaluation C évaluation D évaluation C évaluation D
61  59  64
68  67
79  61  80
79  75  82
50  82  65
93  77
87  78  92
65  76
74  62  69
69  63
59  85  48
79  49


Chaque note provient d'un élève différent. Chaque combinaison méthode-école est une classe et constitue une unité expérimentale.

Jeu de données équivalent

 

  haut de la page Liens

Statistique Canada
Association des statisticiennes et statisticiens du Québec
Département de mathématiques et de statistique de l'Université Laval

 

  haut de la page Questions, commentaires, suggestions


Philippe Choquette, B. Sc. Statistique
contact: formulaire en ligne