Les tris à plat, diversité et puissance des tests

Nous l’avons vu (la nature des questions), il existe plusieurs natures de questions : les questions nominales, les questions ordinales (ces deux premières catégories étant souvent regroupées sous l’appellation « variables non métriques » ou « variables qualitatives ») et les questions métriques.

En fonction du type de question, les statistiques que nous pourrons effectuer varieront fortement.

Intéressons-nous ici aux statistiques descriptives, et particulièrement à l’analyse univariée. En plus clair, aux tris à plat (on décrit UNE variable, sans croisement). Nous verrons à chaque fois qu’il existe un indicateur de tendance centrale et une possibilité de rendre compte de la dispersion.

Gardez à l’esprit que :
Variables métriques > variables ordinales > variables nominales.
(> : est supérieur à, on peut faire plus de tests statistiques et plus puissants)

  1. Pour les questions nominales

Ici, rappelez-vous, les modalités de réponses n’ont pas de lien entre elles (une modalité n’est pas meilleure que les autres).
Pour décrire une variable nominale, on utilisera les fréquences (ou pourcentages) : il s’agit uniquement de décompter le nombre d’observations sur chacune des modalités et de rapporter son importance à l’ensemble des observations.

Exemple (fictif) :
On interroge 650 personnes et on leur demande : « Quelle est votre couleur préférée ? »
Voici les réponses, sous forme de fréquences :

Réponse Nb d’individus Fréquence (%)
Bleu 325 50.0%
Rouge 197 30.3%
Jaune 128 19.7%

L’indicateur de tendance centrale est le mode. C’est tout simplement la modalité pour laquelle on a le plus d’observation, la plus haute fréquence. Ici, c’est le bleu qui est donc le mode.

  1. Pour les questions ordinales

Ici, rappelez-vous, les modalités ont un ordre, sans que cela implique qu’elle aient toute une distance équivalente entre elle.
Pour décrire une variable ordinale, on peux utiliser les fréquences et le mode (car les questions ordinales sont plus puissantes que les variables nominales). En plus de cela, pour décrire encore plus finement une variable ordinale, on utilisera les quantiles : il s’agit de diviser la série de données en classes égales (les plus connus des quantiles sont les quartiles).

Exemple (fictif, inspiré de ce site) :
On mesure la distance parcourue par 11 voitures avec 1 litre d’essence :
Voici les résultats, sous forme de rang :

Distance parcourue (en km) Rang
70 1
75 2
80 3
82 4
91 5
100 6
105 7
113 8
120 9
125 10
130 11

Ici le premier quartile est 80 km, le deuxième est 100km et le troisième est 120km.
En effet, on a 11 observations (n=11). La formule des quartiles nous indique qu’il faut faire :

  1. pour le premier quartile : (n+1)/4. Soit : 12/4 = 3. L’observation du rang 3 nous indique 80.
  2. pour le deuxième quartile : (n+1)/2. Soit : 12/2 = 6. L’observation du rang 6 nous indique 100.
  3. pour le troisième quartile : 3(n+1)/4. Soit : 36/4 = 9. L’observation du rang 9 nous indique 120.

Ici, il est surtout important de retenir la logique plus que la formule (le but de ce blog n’étant pas d’aligner les formules) : on cherche simplement à diviser l’échantillon en classe égale.
L’indicateur de tendance centrale pour les variables ordinales est la médiane. C’est tout simplement le deuxième quartile, à savoir la valeur pour laquelle 50% des cas ont des valeurs inférieures et 50% ont des valeurs supérieures. Dans notre exemple, la médiane est de 100 km.

Petite précision : que faire quand on a un nombre pair d’observation ? Imaginons que nous avions observé 10 voitures, sans voir la 11ème (qui a fait 130 km) :

Distance parcourue (en km) Rang
70 1
75 2
80 3
82 4
91 5
100 6
105 7
113 8
120 9
125 10

Le calcul de la médiane est alors la moyenne des « n/2 » et « n/2 + 1 » observations. Ici : 10/2 = 5 et 10/2 + 1= 6. Au 5ème rang, on a 91 km ; au 6ème rang, on a 100 km. La médiane est donc de (91+100)/2=95.5 km.

  1. Pour les questions métriques

Ici, rappelez-vous, les modalités ont à la fois la notion d’ordre et de distance entre les modalités de réponse.
Pour décrire une variable métriques, on peux utiliser les fréquences, les quantiles, le mode et la médiane (car les questions métriques sont plus puissantes que les variables ordinales, elles-mêmes plus puissantes que les nominales). En plus de cela, pour décrire encore plus finement une variable métrique, on utilisera la moyenne et l’écart-type.

Exemple (fictif) :
On a demandé à 500 personnes de noter de 0 à 10 leur satisfaction vis-à-vis d’un produit. Voici les réponses (avec les fréquences) :

Note de satisfaction Nb d’individus Fréquence (%)
0/10 0 0.0%
1 0 0.0%
2 1 0.2%
3 3 0.6%
4 7 1.4%
5 21 4.2%
6 50 10.0%
7 105 21.0%
8 161 32.2%
9 65 13.0%
10/10 87 17.4%

Ici, on peut constater que le mode se situe à 8/10, la médiane est également à 8/10 (donnée par tous les logiciels de statistiques).
L’indicateur de tendance centrale est la moyenne. Ici, elle est de 7.84.
Les indicateurs de dispersion les plus souvent mentionnés sont l’écart-type ou la variance. Ils sont relativement difficiles à interpréter. En gros, plus leur valeur sont élevées, plus la dispersion est forte.
On peut compléter ces indicateurs avec d’autres moyens :

Il est toujours intéressant de comparer la moyenne et la médiane. Ici, elles sont relativement proches, mais il faut savoir que la moyenne est plus impactée par les valeurs extrêmes que la médiane. Ainsi, si quelques personnes avaient attribué la note de 1/10, on aurait eu une moyenne beaucoup plus basse alors que la médiane n’aurait pas bougé.
Une moyenne inférieure à la médiane implique des valeurs extrêmes « basses » qui tirent la distribution vers le bas et une moyenne supérieure à la médiane implique des valeurs extrêmes « hautes » qui tirent la distribution vers le haut.

Sachez qu’il existe la possibilité (surtout sur SPSS) de sortir la moyenne en excluant 5% des valeurs extrêmes pour la comparer à la moyenne avec toutes les valeurs.

Sachez également, pour ceux qui sont vraiment friands de statistiques, qu’il existe deux indicateurs pour nous renseigner sur la forme de la distribution :

  1. Le coefficient de symétrie (ou Skewness) qui indique si les observations sont concentrées autour de la moyenne (coefficient nul), concentrées autour des valeurs faibles (coeff. positif) ou des valeurs élevées (coeff. négatif).
  2. Le coefficient d’aplatissement (ou Kurtosis) qui indique la concentration de la distribution : une valeur positive indique que les valeur sont concentrées autour de la moyenne, une valeur négative indique une distribution assez plate, avec des valeurs bien reparties partout.

Pas de commentaire sur “Les tris à plat, diversité et puissance des tests”

  1. […] statistiques univariés (tris à plat) sont réalisables en fonction de la nature des questions : ici […]

Soumettre

Top