Les paramètres de dispersion

Les paramètres de dispersion

Les paramètres de dispersion sont des mesures statistiques qui indiquent la variabilité des données dans un ensemble de données.

Ils sont utilisés pour quantifier la distance entre les différentes observations et pour évaluer la façon dont les données sont réparties autour de la mesure de tendance centrale, telle que la moyenne ou la médiane.

Principe des paramètres de dispersion

Le résumé d’une distribution que donne une valeur centrale ne nous renseigne pas sur la dispersion des valeurs autour de cette valeur centrale, c’est-à-dire sur la tendance qu’elles-ont à se concentrer ou se disperser autour de celle-ci.

Exemple :

Le tableau suivant indique la répartition des notes de 2 professeurs P1 et P2 d’un effectif de 9 étudiants :

ÉtudiantP1P2
170
285
399
41010
51010
61010
71111
81215
91320
Mode1010
Moyenne1010
Médiane1010
Comparaison des notes de deux professeurs

D’après l’analyse des valeurs centrales (moyenne=médiane=mode=10), on peut conclure que :

  • Les 2 professeurs notent rigoureusement de la même manière
  • Intuitivement, il existe une différence dans la manière de notation
  • Les notes du P1 sont concentrées autour de 10
  • Les notes du P2 sont dispersées autour de 10
  • La série P2 et plus dispersées par rapport à al série P1

Constat : Il est nécessaire de d’introduire des paramètres qui permettent de caractériser la dispersion des valeurs d’une série statistique

On appelle dispersion statistique, la tendance qu’ont les valeurs de la distribution d’un caractère à s’étaler de part et d’autre d’une valeur centrale et/ou à s’éloigner les unes des autres. Ce calcul n’a évidemment de sens que pour les caractères quantitatifs.

L’étendue :

l’étendue d’une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :

Si Xmax et Xmin sont respectivement la plus grande et la plus petite valeur de la série, on note alors l’Étendue de X:

e= Xmax-Xmin

Prenant l’exemple précédant :

P1P2
l’étenduee=13-7=6e=20-0=20
Calcul de l’étendue

D’après les résultats du calcul de l’étendue pour les 2 série, on constate que la dispersion de la série P2 est beaucoup plus forte par rapport à la série P1.

Exemple : Salaires de l’entreprise SEG

L’étendue de la distribution des salaires dans l’entreprise ABC est de (90000 – 2500) = 87500 ce qui semble considérable.

Mais si l’on retirait le PDG et les directeurs, l’amplitude des salaires ne serait plus que de (7000-2500) = 4500.

En dehors des membres de la direction, les employés de l’entreprise ABC ont donc des salaires très peu différenciés.

Conclusion :

La mesure de l’étendue est un paramètre de dispersion absolue facile à calculer, mais qui peut être très sensible, car il ne repose que sur deux valeurs extrêmes de la distribution.

Par conséquent, lorsque la distribution contient des valeurs extrêmes, l’étendue n’a pas beaucoup de signification.

NB : pour comparer les dispersions de deux ou plusieurs séries statistiques, on utilise l’écart maximal relatif (EMR) donnée par :

Écart Maximal Relatif

Écarts interquantiles

On peut éviter les problèmes liés à l’étendue en supprimant les valeurs extrêmes et en calculant l’intervalle des valeurs restantes : c’est la base de la méthode des quantiles.

Les quantiles sont les bornes d’une classification en classes ayant des effectifs égaux.

Il est important de noter que les effectifs qui sont égaux et non pas les amplitudes.

Les quartiles  

Sont les trois valeurs qui permettent de découper la distribution en quatre classes d’effectifs égaux, on les note Q1, Q2 et Q3.

Ainsi l’intervalle [Q1;Q3] contient 50% des observations.

ClassesFréquences simples
[Xmin ; Q1 [
[Q1 ; Q2 [
[Q2 ; Q3 [
[Q3 ; Xmax ]
25 %
25 %
25 %
25 %
Tableau des quartiles
Les quartiles Q1 et Q3

Exemple :

Le tableau suivant présente la répartition des salariés par leur salaire horaire

SalaireniECC
10-15
15-20
20-25
25-30
Total
9
25
32
16
N=82
9
34
66
82
 
Étape préliminaire : Classer les ECC

Pour Q1

1ʳᵉ étape : Déterminer le Rang de Q1 N/4=20,5

2ᵉ étape : Déterminer la classe de Q1

Il s’agit de trouver la classe à laquelle appartient le 20ᵉ  individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

Q1 ∈ [15-20[, on peut calculer avec plus de précision Q1 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=9                                le salaire est 15

Pour n=20                                    Q1

Pour n=34                              le salaire est 20

Q1=17,2 (alors 25% de la population ont un salaire inférieur à 17,2 dh et 75% ont plus)

Pour Q3

1ʳᵉ étape : Déterminer le Rang de Q3 N*3/4=61,5

2ᵉ étape : Déterminer la classe de Q3 :

Il s’agit de trouver la classe à laquelle appartient le 61ᵉ  individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

Q3 ∈ [20-25[, on peut calculer avec plus de précision Q3 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=34                               le salaire est 20

Pour n=61                                    Q3

Pour n= 66                             le salaire est 25

Q3=24,2 (on dit que 75% de la population ont un salaire inférieur à 24,2 et 25% ont une valeur plus)

Les quintiles

Les quatre quintiles partagent la population en cinq parties de même effectif (chaque partie contient 20% de l’effectif total).

Ainsi l’intervalle [q1;q4] contient 60% des observations.

ClassesFréquences simples
[Xmin ; Q1 [
[Q1 ; Q2 [
[Q2 ; Q3 [
[Q3 ; Q4]
[Q4 ; Xmax ]
20 %
20 %
20 %
20 %
20 %
Tableau des quintiles
Les quintiles

Prenant le même exemple

1ʳᵉ étape : Déterminer le Rang de q1 N/5=16

2ᵉ étape : Déterminer la classe de q1

Il s’agit de trouver la classe à laquelle appartient le 16ᵉ  individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

q1 ∈ [15-20[, on peut calculer avec plus de précision q1 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=9                                le salaire est 15

Pour n=16                                    q1

Pour n=34                               le salaire est 20

q1=16,4 (20% de la population ont un salaire inférieur à 16,4 et 80% ont plus)

1ʳᵉ étape : Déterminer le Rang de q4 N*4/5=66

2ᵉ étape : Déterminer la classe de q4

Il s’agit de trouver la classe à laquelle appartient le 66ᵉ  individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

q4=25 (20% de la population ont un salaire supérieur à 25 et 80% ont moins)

Les déciles

Les neuf déciles partagent la population en dix parties de même effectif (chaque partie contient 10% de l’effectif total).

Ainsi l’intervalle [D1;D9] 80% des observations

ClassesFréquences simples
[Xmin ; D1 [
[D1 ; D2 [
[D2 ; D3 [
……….
[D8 ; D9]
[D9 ; Xmax ]
10 %
10 %
10 %
 
10 %
10 %
Tableau des déciles
les déciles

Le rang de D1 est de N/10=8,2

D1=14,4 (10% des salariés perçoivent moins de 14,4 et 90% perçoivent plus)

Le rang de D9 est de N9/10=73,8

D9=27,5 (90% ont moins 27,5 et 10% ont plus)

Les centiles

Les quatre-vingt-dix-neuf centiles partagent la population en cent parties de même effectif (chaque partie contient 1% de l’effectif total).

Ainsi, l’intervalle [C1 ;C99] contient 98% des observations.

ClassesFréquences simples
[Xmin ; C1 [
[C1 ; C2 [
[C2 ; C3 [
……….
[C98 ; C99]
[D99 ; Xmax ]
1 %
1 %
1 %
 
1 %
1 %
Tableau des centiles

Le rang de C1 est de N/100=0,82

C1=10,55 (1% ont moins et 99% ont plus)

Le rang de C99 est de N99/100=81,18

C99=29,69 (99% ont moins et 1% ont plus)

Les écarts inter quantiles :

C’est un paramètre de dispersion, donné par la différence entre le premier et le dernier quantile.

Ainsi, on a les quatre écarts inter quantiles :

Les écarts inter quantiles 

Interprétations :

  • 50% des salariés ont un salaire horaire compris entre 17,2 et 24,2
  • L’étendue de la moitié centrale de la population représente 33% de la médiane
  • 60% des salariés ont un salaire horaire compris entre 16,4 et 25
  • L’étendue de 60% de la population représente 41% de la médiane
  • 80% des salariés ont un salaire horaire compris entre 14,4 et 27,5
  • L’étendue de 80% de la population représente 62% de la médiane
  • 98% des salariés ont un salaire horaire compris entre 29,69 et 10,55
  • L’étendue de 98% de la population représente 91% de la médiane
  •  D9/D1=2, signifie que le salaire horaire minimal des 10% des salariés les mieux payés, est à peu près deux fois le salaire horaire maximal des 10% des salariés les moins bien payés.

L’écart absolu moyen

Principe et Méthode de calcul

L’écart absolu moyen (en anglais, Mean Absolute Deviation ou MAD) est une mesure statistique de dispersion qui calcule la moyenne des valeurs absolues des écarts entre chaque valeur d’un ensemble de données et la moyenne de cet ensemble.

Pour calculer l’écart absolu moyen d’un ensemble de données, on doit suivre les étapes suivantes :

  1. Calculer la moyenne de l’ensemble de données.
  2. Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
  3. Prendre la valeur absolue de chaque différence.
  4. Calculer la moyenne de toutes les valeurs absolues de différence.

Le résultat obtenu est l’écart absolu moyen de l’ensemble de données.

L’écart absolu moyen est une mesure utile pour évaluer la variabilité d’un ensemble de données, en particulier lorsque les valeurs sont dispersées autour de la moyenne de manière uniforme.

Exemple :

SalairesnixixiniXiXini
10-15912,5112,58,3575,15
15-202517,5437,53,3583,75
20-253222,57201,6552,8
25-301627,54406,65106,4
TotalN=821710318,1
Tableau statistique : écart absolu moyen
Calcul de l'écart absolu moyen (âge)

Signification : Ca = 3.88 DH signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (20.85 dh) de 3,88 dh.

Application

Considérons le tableau suivant qui présente la répartition des étudiants selon leur poids

PoidsnixixiniXiXini
55-601257,569010,25123
60-651762,51062,55,2589,25
65-703667,524300,259
70-752472,517404,75114
75-801177,5852,59,75107,25
TotalN=1006775442,5
TAF: Calculer l’écart absolu moyen
Calcul de l'écart absolu moyen (poids)

Signification :

Ca = 4.42 Kg signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (67.75 Kg) de 4.42 Kg.

Remarque : Pour dire si une dispersion est grande ou non, pour comparer deux séries entre elles, on se sert de l’indice de dispersion relatif

Exemples :

IDR=3,88/20,85=18,61%

IDR=4,42/67,75=6,52%

La première série est plus dispersée que la 2ème.

La variance

La variance est une mesure statistique de dispersion qui indique à quel point les valeurs d’un ensemble de données sont éloignées de leur moyenne. Elle est définie comme la moyenne des carrés des écarts entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.

Pour calculer la variance d’un ensemble de données, on doit suivre les étapes suivantes :

  1. Calculer la moyenne de l’ensemble de données.
  2. Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
  3. Prendre le carré de chaque différence.
  4. Calculer la moyenne de toutes les valeurs de carré de différence.

Le résultat obtenu est la variance de l’ensemble de données.

Pour simplifier, c’est la moyenne arithmétique des carrés des écarts entre les valeurs du caractère et la moyenne arithmétique.

Formule de la variance

L’écart type

L’écart type est une mesure statistique qui permet de quantifier la dispersion des valeurs d’un ensemble de données par rapport à leur moyenne. Il est défini comme la racine carrée de la variance de l’ensemble de données.

L’écart type mesure donc la distance moyenne entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.

Il est exprimé dans la même unité que les données d’origine et permet de déterminer si les valeurs sont proches les unes des autres ou éloignées les unes des autres.

L’écart type d’une distribution X est égal à la racine carrée de la variance V(x) :

Formule de l'écart type

Le coefficient de variation

Le coefficient de variation est une mesure de la dispersion relative des valeurs d’un ensemble de données.

Il est calculé comme le rapport entre l’écart type et la moyenne de cet ensemble, exprimé en pourcentage :

Cv = (écart type / moyenne) x 100%

Ce paramètre permet donc de comparer la variabilité de deux ensembles de données ayant des moyennes différentes, en les ramenant à une même échelle relative.

Il est souvent utilisé pour comparer la variabilité de séries de données avec des moyennes différentes, telles que les séries économiques ou les séries biologiques.

Par exemple, si deux populations ont des moyennes différentes, mais un coefficient de variation similaire, cela indique qu’elles présentent une variabilité relative similaire.

Cependant, le coefficient de variation ne doit pas être utilisé lorsque la moyenne est très proche de zéro ou lorsque les données sont très hétérogènes. Dans ces cas, il peut donner des résultats erronés ou peu significatifs.

Formule du coefficient de variation
SalairesnixixiniXiXi2niXi2fifiXI2
10-15912,5112,508,3569,72627,500,117,65
15-202517,5437,503,3511,22280,560,303,42
20-253222,57201,652,7287,120,391,06
25-301627,54406,6544,22707,560,208,63
N=82     1 710    1 702,75  20,77  
Calcul du Cv
Exercice : Variance, écart type, coefficient de variation

Cv=4,55/20,85=21,82 il s’agit d’une faible dispersion, car l’écart-type ne représente que 21% de la moyenne.

Un commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *