Les paramètres de dispersion sont des mesures statistiques qui indiquent la variabilité des données dans un ensemble de données.
Ils sont utilisés pour quantifier la distance entre les différentes observations et pour évaluer la façon dont les données sont réparties autour de la mesure de tendance centrale, telle que la moyenne ou la médiane.
Principe des paramètres de dispersion
Le résumé d’une distribution que donne une valeur centrale ne nous renseigne pas sur la dispersion des valeurs autour de cette valeur centrale, c’est-à-dire sur la tendance qu’elles-ont à se concentrer ou se disperser autour de celle-ci.
Exemple :
Le tableau suivant indique la répartition des notes de 2 professeurs P1 et P2 d’un effectif de 9 étudiants :
Étudiant | P1 | P2 |
---|---|---|
1 | 7 | 0 |
2 | 8 | 5 |
3 | 9 | 9 |
4 | 10 | 10 |
5 | 10 | 10 |
6 | 10 | 10 |
7 | 11 | 11 |
8 | 12 | 15 |
9 | 13 | 20 |
Mode | 10 | 10 |
Moyenne | 10 | 10 |
Médiane | 10 | 10 |
D’après l’analyse des valeurs centrales (moyenne=médiane=mode=10), on peut conclure que :
- Les 2 professeurs notent rigoureusement de la même manière
- Intuitivement, il existe une différence dans la manière de notation
- Les notes du P1 sont concentrées autour de 10
- Les notes du P2 sont dispersées autour de 10
- La série P2 et plus dispersées par rapport à al série P1
Constat : Il est nécessaire de d’introduire des paramètres qui permettent de caractériser la dispersion des valeurs d’une série statistique
On appelle dispersion statistique, la tendance qu’ont les valeurs de la distribution d’un caractère à s’étaler de part et d’autre d’une valeur centrale et/ou à s’éloigner les unes des autres. Ce calcul n’a évidemment de sens que pour les caractères quantitatifs.
L’étendue :
l’étendue d’une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :
Si Xmax et Xmin sont respectivement la plus grande et la plus petite valeur de la série, on note alors l’Étendue de X:
e= Xmax-Xmin
Prenant l’exemple précédant :
P1 | P2 | |
l’étendue | e=13-7=6 | e=20-0=20 |
D’après les résultats du calcul de l’étendue pour les 2 série, on constate que la dispersion de la série P2 est beaucoup plus forte par rapport à la série P1.
Exemple : Salaires de l’entreprise SEG
L’étendue de la distribution des salaires dans l’entreprise ABC est de (90000 – 2500) = 87500 ce qui semble considérable.
Mais si l’on retirait le PDG et les directeurs, l’amplitude des salaires ne serait plus que de (7000-2500) = 4500.
En dehors des membres de la direction, les employés de l’entreprise ABC ont donc des salaires très peu différenciés.
Conclusion :
La mesure de l’étendue est un paramètre de dispersion absolue facile à calculer, mais qui peut être très sensible, car il ne repose que sur deux valeurs extrêmes de la distribution.
Par conséquent, lorsque la distribution contient des valeurs extrêmes, l’étendue n’a pas beaucoup de signification.
NB : pour comparer les dispersions de deux ou plusieurs séries statistiques, on utilise l’écart maximal relatif (EMR) donnée par :
Écarts interquantiles
On peut éviter les problèmes liés à l’étendue en supprimant les valeurs extrêmes et en calculant l’intervalle des valeurs restantes : c’est la base de la méthode des quantiles.
Les quantiles sont les bornes d’une classification en classes ayant des effectifs égaux.
Il est important de noter que les effectifs qui sont égaux et non pas les amplitudes.
Les quartiles
Sont les trois valeurs qui permettent de découper la distribution en quatre classes d’effectifs égaux, on les note Q1, Q2 et Q3.
Ainsi l’intervalle [Q1;Q3] contient 50% des observations.
Classes | Fréquences simples |
---|---|
[Xmin ; Q1 [ [Q1 ; Q2 [ [Q2 ; Q3 [ [Q3 ; Xmax ] | 25 % 25 % 25 % 25 % |
Exemple :
Le tableau suivant présente la répartition des salariés par leur salaire horaire
Salaire | ni | ECC |
---|---|---|
10-15 15-20 20-25 25-30 Total | 9 25 32 16 N=82 | 9 34 66 82 |
Pour Q1
1ʳᵉ étape : Déterminer le Rang de Q1 N/4=20,5
2ᵉ étape : Déterminer la classe de Q1
Il s’agit de trouver la classe à laquelle appartient le 20ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.
Q1 ∈ [15-20[, on peut calculer avec plus de précision Q1 en faisant une interpolation linéaire.
3ᵉ étape : Interpolation linéaire
On connaît que :
Pour n=9 le salaire est 15
Pour n=20 Q1
Pour n=34 le salaire est 20
Q1=17,2 (alors 25% de la population ont un salaire inférieur à 17,2 dh et 75% ont plus)
Pour Q3
1ʳᵉ étape : Déterminer le Rang de Q3 N*3/4=61,5
2ᵉ étape : Déterminer la classe de Q3 :
Il s’agit de trouver la classe à laquelle appartient le 61ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.
Q3 ∈ [20-25[, on peut calculer avec plus de précision Q3 en faisant une interpolation linéaire.
3ᵉ étape : Interpolation linéaire
On connaît que :
Pour n=34 le salaire est 20
Pour n=61 Q3
Pour n= 66 le salaire est 25
Q3=24,2 (on dit que 75% de la population ont un salaire inférieur à 24,2 et 25% ont une valeur plus)
Les quintiles
Les quatre quintiles partagent la population en cinq parties de même effectif (chaque partie contient 20% de l’effectif total).
Ainsi l’intervalle [q1;q4] contient 60% des observations.
Classes | Fréquences simples |
---|---|
[Xmin ; Q1 [ [Q1 ; Q2 [ [Q2 ; Q3 [ [Q3 ; Q4] [Q4 ; Xmax ] | 20 % 20 % 20 % 20 % 20 % |
Prenant le même exemple
1ʳᵉ étape : Déterminer le Rang de q1 N/5=16
2ᵉ étape : Déterminer la classe de q1
Il s’agit de trouver la classe à laquelle appartient le 16ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.
q1 ∈ [15-20[, on peut calculer avec plus de précision q1 en faisant une interpolation linéaire.
3ᵉ étape : Interpolation linéaire
On connaît que :
Pour n=9 le salaire est 15
Pour n=16 q1
Pour n=34 le salaire est 20
q1=16,4 (20% de la population ont un salaire inférieur à 16,4 et 80% ont plus)
1ʳᵉ étape : Déterminer le Rang de q4 N*4/5=66
2ᵉ étape : Déterminer la classe de q4
Il s’agit de trouver la classe à laquelle appartient le 66ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.
q4=25 (20% de la population ont un salaire supérieur à 25 et 80% ont moins)
Les déciles
Les neuf déciles partagent la population en dix parties de même effectif (chaque partie contient 10% de l’effectif total).
Ainsi l’intervalle [D1;D9] 80% des observations
Classes | Fréquences simples |
---|---|
[Xmin ; D1 [ [D1 ; D2 [ [D2 ; D3 [ ………. [D8 ; D9] [D9 ; Xmax ] | 10 % 10 % 10 % 10 % 10 % |
Le rang de D1 est de N/10=8,2
D1=14,4 (10% des salariés perçoivent moins de 14,4 et 90% perçoivent plus)
Le rang de D9 est de N9/10=73,8
D9=27,5 (90% ont moins 27,5 et 10% ont plus)
Les centiles
Les quatre-vingt-dix-neuf centiles partagent la population en cent parties de même effectif (chaque partie contient 1% de l’effectif total).
Ainsi, l’intervalle [C1 ;C99] contient 98% des observations.
Classes | Fréquences simples |
---|---|
[Xmin ; C1 [ [C1 ; C2 [ [C2 ; C3 [ ………. [C98 ; C99] [D99 ; Xmax ] | 1 % 1 % 1 % 1 % 1 % |
Le rang de C1 est de N/100=0,82
C1=10,55 (1% ont moins et 99% ont plus)
Le rang de C99 est de N99/100=81,18
C99=29,69 (99% ont moins et 1% ont plus)
Les écarts inter quantiles :
C’est un paramètre de dispersion, donné par la différence entre le premier et le dernier quantile.
Ainsi, on a les quatre écarts inter quantiles :
Interprétations :
- 50% des salariés ont un salaire horaire compris entre 17,2 et 24,2
- L’étendue de la moitié centrale de la population représente 33% de la médiane
- 60% des salariés ont un salaire horaire compris entre 16,4 et 25
- L’étendue de 60% de la population représente 41% de la médiane
- 80% des salariés ont un salaire horaire compris entre 14,4 et 27,5
- L’étendue de 80% de la population représente 62% de la médiane
- 98% des salariés ont un salaire horaire compris entre 29,69 et 10,55
- L’étendue de 98% de la population représente 91% de la médiane
- D9/D1=2, signifie que le salaire horaire minimal des 10% des salariés les mieux payés, est à peu près deux fois le salaire horaire maximal des 10% des salariés les moins bien payés.
L’écart absolu moyen
Principe et Méthode de calcul
L’écart absolu moyen (en anglais, Mean Absolute Deviation ou MAD) est une mesure statistique de dispersion qui calcule la moyenne des valeurs absolues des écarts entre chaque valeur d’un ensemble de données et la moyenne de cet ensemble.
Pour calculer l’écart absolu moyen d’un ensemble de données, on doit suivre les étapes suivantes :
- Calculer la moyenne de l’ensemble de données.
- Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
- Prendre la valeur absolue de chaque différence.
- Calculer la moyenne de toutes les valeurs absolues de différence.
Le résultat obtenu est l’écart absolu moyen de l’ensemble de données.
L’écart absolu moyen est une mesure utile pour évaluer la variabilité d’un ensemble de données, en particulier lorsque les valeurs sont dispersées autour de la moyenne de manière uniforme.
Exemple :
Salaires | ni | xi | xini | Xi | Xini |
---|---|---|---|---|---|
10-15 | 9 | 12,5 | 112,5 | 8,35 | 75,15 |
15-20 | 25 | 17,5 | 437,5 | 3,35 | 83,75 |
20-25 | 32 | 22,5 | 720 | 1,65 | 52,8 |
25-30 | 16 | 27,5 | 440 | 6,65 | 106,4 |
Total | N=82 | 1710 | 318,1 |
Signification : Ca = 3.88 DH signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (20.85 dh) de 3,88 dh.
Application
Considérons le tableau suivant qui présente la répartition des étudiants selon leur poids
Poids | ni | xi | xini | Xi | Xini |
---|---|---|---|---|---|
55-60 | 12 | 57,5 | 690 | 10,25 | 123 |
60-65 | 17 | 62,5 | 1062,5 | 5,25 | 89,25 |
65-70 | 36 | 67,5 | 2430 | 0,25 | 9 |
70-75 | 24 | 72,5 | 1740 | 4,75 | 114 |
75-80 | 11 | 77,5 | 852,5 | 9,75 | 107,25 |
Total | N=100 | 6775 | 442,5 |
Signification :
Ca = 4.42 Kg signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (67.75 Kg) de 4.42 Kg.
Remarque : Pour dire si une dispersion est grande ou non, pour comparer deux séries entre elles, on se sert de l’indice de dispersion relatif
Exemples :
IDR=3,88/20,85=18,61%
IDR=4,42/67,75=6,52%
La première série est plus dispersée que la 2ème.
La variance
La variance est une mesure statistique de dispersion qui indique à quel point les valeurs d’un ensemble de données sont éloignées de leur moyenne. Elle est définie comme la moyenne des carrés des écarts entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.
Pour calculer la variance d’un ensemble de données, on doit suivre les étapes suivantes :
- Calculer la moyenne de l’ensemble de données.
- Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
- Prendre le carré de chaque différence.
- Calculer la moyenne de toutes les valeurs de carré de différence.
Le résultat obtenu est la variance de l’ensemble de données.
Pour simplifier, c’est la moyenne arithmétique des carrés des écarts entre les valeurs du caractère et la moyenne arithmétique.
L’écart type
L’écart type est une mesure statistique qui permet de quantifier la dispersion des valeurs d’un ensemble de données par rapport à leur moyenne. Il est défini comme la racine carrée de la variance de l’ensemble de données.
L’écart type mesure donc la distance moyenne entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.
Il est exprimé dans la même unité que les données d’origine et permet de déterminer si les valeurs sont proches les unes des autres ou éloignées les unes des autres.
L’écart type d’une distribution X est égal à la racine carrée de la variance V(x) :
Le coefficient de variation
Le coefficient de variation est une mesure de la dispersion relative des valeurs d’un ensemble de données.
Il est calculé comme le rapport entre l’écart type et la moyenne de cet ensemble, exprimé en pourcentage :
Cv = (écart type / moyenne) x 100%
Ce paramètre permet donc de comparer la variabilité de deux ensembles de données ayant des moyennes différentes, en les ramenant à une même échelle relative.
Il est souvent utilisé pour comparer la variabilité de séries de données avec des moyennes différentes, telles que les séries économiques ou les séries biologiques.
Par exemple, si deux populations ont des moyennes différentes, mais un coefficient de variation similaire, cela indique qu’elles présentent une variabilité relative similaire.
Cependant, le coefficient de variation ne doit pas être utilisé lorsque la moyenne est très proche de zéro ou lorsque les données sont très hétérogènes. Dans ces cas, il peut donner des résultats erronés ou peu significatifs.
Salaires | ni | xi | xini | Xi | Xi2 | niXi2 | fi | fiXI2 |
---|---|---|---|---|---|---|---|---|
10-15 | 9 | 12,5 | 112,50 | 8,35 | 69,72 | 627,50 | 0,11 | 7,65 |
15-20 | 25 | 17,5 | 437,50 | 3,35 | 11,22 | 280,56 | 0,30 | 3,42 |
20-25 | 32 | 22,5 | 720 | 1,65 | 2,72 | 87,12 | 0,39 | 1,06 |
25-30 | 16 | 27,5 | 440 | 6,65 | 44,22 | 707,56 | 0,20 | 8,63 |
N=82 | 1 710 | 1 702,75 | 20,77 |
Cv=4,55/20,85=21,82 il s’agit d’une faible dispersion, car l’écart-type ne représente que 21% de la moyenne.
[…] dans cet article sur les exercices de statistiques descriptives et plus particulièrement sur les paramètres de dispersion. La compréhension de ces paramètres vous permettra de mieux interpréter les propriétés […]