Les paramètres de dispersion

Les paramètres de dispersion sont des mesures statistiques qui indiquent la variabilité des données dans un ensemble de données.

Ils sont utilisés pour quantifier la distance entre les différentes observations et pour évaluer la façon dont les données sont réparties autour de la mesure de tendance centrale, telle que la moyenne ou la médiane.

Principe des paramètres de dispersion

Le résumé d’une distribution que donne une valeur centrale ne nous renseigne pas sur la dispersion des valeurs autour de cette valeur centrale, c’est-à-dire sur la tendance qu’elles-ont à se concentrer ou se disperser autour de celle-ci.

Exemple :

Le tableau suivant indique la répartition des notes de 2 professeurs P1 et P2 d’un effectif de 9 étudiants :

Étudiant	P1	P2
1	7	0
2	8	5
3	9	9
4	10	10
5	10	10
6	10	10
7	11	11
8	12	15
9	13	20
Mode	10	10
Moyenne	10	10
Médiane	10	10

Comparaison des notes de deux professeurs

D’après l’analyse des valeurs centrales (moyenne=médiane=mode=10), on peut conclure que :

Les 2 professeurs notent rigoureusement de la même manière
Intuitivement, il existe une différence dans la manière de notation
Les notes du P1 sont concentrées autour de 10
Les notes du P2 sont dispersées autour de 10
La série P2 et plus dispersées par rapport à al série P1

Constat : Il est nécessaire de d’introduire des paramètres qui permettent de caractériser la dispersion des valeurs d’une série statistique

On appelle dispersion statistique, la tendance qu’ont les valeurs de la distribution d’un caractère à s’étaler de part et d’autre d’une valeur centrale et/ou à s’éloigner les unes des autres. Ce calcul n’a évidemment de sens que pour les caractères quantitatifs.

L’étendue :

l’étendue d’une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :

Si X_max et X_min sont respectivement la plus grande et la plus petite valeur de la série, on note alors l’Étendue de X:

e= X_max-X_min

Prenant l’exemple précédant :

	P1	P2
l’étendue	e=13-7=6	e=20-0=20

Calcul de l’étendue

D’après les résultats du calcul de l’étendue pour les 2 série, on constate que la dispersion de la série P2 est beaucoup plus forte par rapport à la série P1.

Exemple : Salaires de l’entreprise SEG

L’étendue de la distribution des salaires dans l’entreprise ABC est de (90000 – 2500) = 87500 ce qui semble considérable.

Mais si l’on retirait le PDG et les directeurs, l’amplitude des salaires ne serait plus que de (7000-2500) = 4500.

En dehors des membres de la direction, les employés de l’entreprise ABC ont donc des salaires très peu différenciés.

Conclusion :

La mesure de l’étendue est un paramètre de dispersion absolue facile à calculer, mais qui peut être très sensible, car il ne repose que sur deux valeurs extrêmes de la distribution.

Par conséquent, lorsque la distribution contient des valeurs extrêmes, l’étendue n’a pas beaucoup de signification.

NB : pour comparer les dispersions de deux ou plusieurs séries statistiques, on utilise l’écart maximal relatif (EMR) donnée par :

Écarts interquantiles

On peut éviter les problèmes liés à l’étendue en supprimant les valeurs extrêmes et en calculant l’intervalle des valeurs restantes : c’est la base de la méthode des quantiles.

Les quantiles sont les bornes d’une classification en classes ayant des effectifs égaux.

Il est important de noter que les effectifs qui sont égaux et non pas les amplitudes.

Les quartiles

Sont les trois valeurs qui permettent de découper la distribution en quatre classes d’effectifs égaux, on les note Q1, Q2 et Q3.

Ainsi l’intervalle [Q1;Q3] contient 50% des observations.

Classes	Fréquences simples
[Xmin ; Q1 [ [Q1 ; Q2 [ [Q2 ; Q3 [ [Q3 ; Xmax ]	25 % 25 % 25 % 25 %

Tableau des quartiles

Exemple :

Le tableau suivant présente la répartition des salariés par leur salaire horaire

Salaire	ni	ECC
10-15 15-20 20-25 25-30 Total	9 25 32 16 N=82	9 34 66 82

Étape préliminaire : Classer les ECC

Pour Q1

1ʳᵉ étape : Déterminer le Rang de Q1 N/4=20,5

2ᵉ étape : Déterminer la classe de Q1

Il s’agit de trouver la classe à laquelle appartient le 20ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

Q1 ∈ [15-20[, on peut calculer avec plus de précision Q1 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=9 le salaire est 15

Pour n=20 Q1

Pour n=34 le salaire est 20

Q1=17,2 (alors 25% de la population ont un salaire inférieur à 17,2 dh et 75% ont plus)

Pour Q3

1ʳᵉ étape : Déterminer le Rang de Q3 N*3/4=61,5

2ᵉ étape : Déterminer la classe de Q3 :

Il s’agit de trouver la classe à laquelle appartient le 61ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

Q3 ∈ [20-25[, on peut calculer avec plus de précision Q3 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=34 le salaire est 20

Pour n=61 Q3

Pour n= 66 le salaire est 25

Q3=24,2 (on dit que 75% de la population ont un salaire inférieur à 24,2 et 25% ont une valeur plus)

Les quintiles

Les quatre quintiles partagent la population en cinq parties de même effectif (chaque partie contient 20% de l’effectif total).

Ainsi l’intervalle [q1;q4] contient 60% des observations.

Classes	Fréquences simples
[Xmin ; Q1 [ [Q1 ; Q2 [ [Q2 ; Q3 [ [Q3 ; Q4] [Q4 ; Xmax ]	20 % 20 % 20 % 20 % 20 %

Tableau des quintiles

Prenant le même exemple

1ʳᵉ étape : Déterminer le Rang de q1 N/5=16

2ᵉ étape : Déterminer la classe de q1

Il s’agit de trouver la classe à laquelle appartient le 16ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

q1 ∈ [15-20[, on peut calculer avec plus de précision q1 en faisant une interpolation linéaire.

3ᵉ étape : Interpolation linéaire

On connaît que :

Pour n=9 le salaire est 15

Pour n=16 q1

Pour n=34 le salaire est 20

q1=16,4 (20% de la population ont un salaire inférieur à 16,4 et 80% ont plus)

1ʳᵉ étape : Déterminer le Rang de q4 N*4/5=66

2ᵉ étape : Déterminer la classe de q4

Il s’agit de trouver la classe à laquelle appartient le 66ᵉ individu, pour cela, on classe les individus par ordre croissant des salaires, ce qui revient à construire la colonne des effectifs cumulés.

q4=25 (20% de la population ont un salaire supérieur à 25 et 80% ont moins)

Les déciles

Les neuf déciles partagent la population en dix parties de même effectif (chaque partie contient 10% de l’effectif total).

Ainsi l’intervalle [D1;D9] 80% des observations

Classes	Fréquences simples
[Xmin ; D1 [ [D1 ; D2 [ [D2 ; D3 [ ………. [D8 ; D9] [D9 ; Xmax ]	10 % 10 % 10 % 10 % 10 %

Tableau des déciles

Le rang de D1 est de N/10=8,2

D1=14,4 (10% des salariés perçoivent moins de 14,4 et 90% perçoivent plus)

Le rang de D9 est de N9/10=73,8

D9=27,5 (90% ont moins 27,5 et 10% ont plus)

Les centiles

Les quatre-vingt-dix-neuf centiles partagent la population en cent parties de même effectif (chaque partie contient 1% de l’effectif total).

Ainsi, l’intervalle [C₁ ;C₉₉] contient 98% des observations.

Classes	Fréquences simples
[Xmin ; C1 [ [C1 ; C2 [ [C2 ; C3 [ ………. [C98 ; C99] [D99 ; Xmax ]	1 % 1 % 1 % 1 % 1 %

Tableau des centiles

Le rang de C1 est de N/100=0,82

C1=10,55 (1% ont moins et 99% ont plus)

Le rang de C99 est de N99/100=81,18

C99=29,69 (99% ont moins et 1% ont plus)

Les écarts inter quantiles :

C’est un paramètre de dispersion, donné par la différence entre le premier et le dernier quantile.

Ainsi, on a les quatre écarts inter quantiles :

Interprétations :

50% des salariés ont un salaire horaire compris entre 17,2 et 24,2
L’étendue de la moitié centrale de la population représente 33% de la médiane
60% des salariés ont un salaire horaire compris entre 16,4 et 25
L’étendue de 60% de la population représente 41% de la médiane
80% des salariés ont un salaire horaire compris entre 14,4 et 27,5
L’étendue de 80% de la population représente 62% de la médiane
98% des salariés ont un salaire horaire compris entre 29,69 et 10,55
L’étendue de 98% de la population représente 91% de la médiane
D9/D1=2, signifie que le salaire horaire minimal des 10% des salariés les mieux payés, est à peu près deux fois le salaire horaire maximal des 10% des salariés les moins bien payés.

L’écart absolu moyen

Principe et Méthode de calcul

L’écart absolu moyen (en anglais, Mean Absolute Deviation ou MAD) est une mesure statistique de dispersion qui calcule la moyenne des valeurs absolues des écarts entre chaque valeur d’un ensemble de données et la moyenne de cet ensemble.

Pour calculer l’écart absolu moyen d’un ensemble de données, on doit suivre les étapes suivantes :

Calculer la moyenne de l’ensemble de données.
Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
Prendre la valeur absolue de chaque différence.
Calculer la moyenne de toutes les valeurs absolues de différence.

Le résultat obtenu est l’écart absolu moyen de l’ensemble de données.

L’écart absolu moyen est une mesure utile pour évaluer la variabilité d’un ensemble de données, en particulier lorsque les valeurs sont dispersées autour de la moyenne de manière uniforme.

Exemple :

Salaires	ni	xi	xini	Xi	Xini
10-15	9	12,5	112,5	8,35	75,15
15-20	25	17,5	437,5	3,35	83,75
20-25	32	22,5	720	1,65	52,8
25-30	16	27,5	440	6,65	106,4
Total	N=82		1710		318,1

Tableau statistique : écart absolu moyen

Signification : Ca = 3.88 DH signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (20.85 dh) de 3,88 dh.

Application

Considérons le tableau suivant qui présente la répartition des étudiants selon leur poids

Poids	ni	xi	xini	Xi	Xini
55-60	12	57,5	690	10,25	123
60-65	17	62,5	1062,5	5,25	89,25
65-70	36	67,5	2430	0,25	9
70-75	24	72,5	1740	4,75	114
75-80	11	77,5	852,5	9,75	107,25
Total	N=100		6775		442,5

TAF: Calculer l’écart absolu moyen

Signification :

Ca = 4.42 Kg signifie qu’en moyenne, chaque individu s’éloigne de la moyenne (67.75 Kg) de 4.42 Kg.

Remarque : Pour dire si une dispersion est grande ou non, pour comparer deux séries entre elles, on se sert de l’indice de dispersion relatif

Exemples :

IDR=3,88/20,85=18,61%

IDR=4,42/67,75=6,52%

La première série est plus dispersée que la 2^ème.

La variance

La variance est une mesure statistique de dispersion qui indique à quel point les valeurs d’un ensemble de données sont éloignées de leur moyenne. Elle est définie comme la moyenne des carrés des écarts entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.

Pour calculer la variance d’un ensemble de données, on doit suivre les étapes suivantes :

Calculer la moyenne de l’ensemble de données.
Pour chaque valeur de l’ensemble de données, calculer la différence entre cette valeur et la moyenne.
Prendre le carré de chaque différence.
Calculer la moyenne de toutes les valeurs de carré de différence.

Le résultat obtenu est la variance de l’ensemble de données.

Pour simplifier, c’est la moyenne arithmétique des carrés des écarts entre les valeurs du caractère et la moyenne arithmétique.

L’écart type

L’écart type est une mesure statistique qui permet de quantifier la dispersion des valeurs d’un ensemble de données par rapport à leur moyenne. Il est défini comme la racine carrée de la variance de l’ensemble de données.

L’écart type mesure donc la distance moyenne entre chaque valeur de l’ensemble de données et la moyenne de cet ensemble.

Il est exprimé dans la même unité que les données d’origine et permet de déterminer si les valeurs sont proches les unes des autres ou éloignées les unes des autres.

L’écart type d’une distribution X est égal à la racine carrée de la variance V(x) :

Le coefficient de variation

Le coefficient de variation est une mesure de la dispersion relative des valeurs d’un ensemble de données.

Il est calculé comme le rapport entre l’écart type et la moyenne de cet ensemble, exprimé en pourcentage :

Cv = (écart type / moyenne) x 100%

Ce paramètre permet donc de comparer la variabilité de deux ensembles de données ayant des moyennes différentes, en les ramenant à une même échelle relative.

Il est souvent utilisé pour comparer la variabilité de séries de données avec des moyennes différentes, telles que les séries économiques ou les séries biologiques.

Par exemple, si deux populations ont des moyennes différentes, mais un coefficient de variation similaire, cela indique qu’elles présentent une variabilité relative similaire.

Cependant, le coefficient de variation ne doit pas être utilisé lorsque la moyenne est très proche de zéro ou lorsque les données sont très hétérogènes. Dans ces cas, il peut donner des résultats erronés ou peu significatifs.

Salaires	ni	xi	xini	Xi	Xi²	niXi²	fi	fiXI²
10-15	9	12,5	112,50	8,35	69,72	627,50	0,11	7,65
15-20	25	17,5	437,50	3,35	11,22	280,56	0,30	3,42
20-25	32	22,5	720	1,65	2,72	87,12	0,39	1,06
25-30	16	27,5	440	6,65	44,22	707,56	0,20	8,63
	N=82		1 710			1 702,75		20,77

Calcul du Cv

Exercice : Variance, écart type, coefficient de variation

Cv=4,55/20,85=21,82 il s’agit d’une faible dispersion, car l’écart-type ne représente que 21% de la moyenne.

Un commentaire

Les paramètres de dispersion : Exercices
12 juin 2023/0h32 Répondre
[…] dans cet article sur les exercices de statistiques descriptives et plus particulièrement sur les paramètres de dispersion. La compréhension de ces paramètres vous permettra de mieux interpréter les propriétés […]

Principe des paramètres de dispersion

L’étendue :

Écarts interquantiles

Les quartiles

Les quintiles

Les déciles

Les centiles

Les écarts inter quantiles :

L’écart absolu moyen

Principe et Méthode de calcul

Exemple :

Application

La variance

L’écart type

Le coefficient de variation

Publications similaires

Les paramètres de concentration

Les paramètres de dispersion : Exercices

Paramètres de Tendance centrale (Série d’exercices 2)

Un commentaire

Laisser un commentaireAnnuler la réponse