La représentativité (part. I) : test d’ajustement du khi² + un cadeau

Souvenez-vous, nous avons vu (ici) qu’un des principes des sondages est de généraliser un phénomène étudié sur un échantillon tiré d’une population à l’ensemble de cette dernière (cette généralisation est appelée « inférence statistique« ). Pour faire cette inférence statistique, l’échantillon doit être représentatif de la population étudiée.

Nous avons aussi vu (ici) que, lorsque l’on travaille avec des méthodes probabilistes, les échantillons sont automatiquement représentatifs (pour voir en détails, différents types d’échantillon probabilistes, voir ici).

En revanche, avec des méthodes empiriques, les échantillons sont représentatifs par construction.
Cela signifie que l’institut choisit des critères sur lesquels l’échantillon possède les mêmes caractéristiques que la population (pour voir en détail des échantillons empiriques, voir ici).

Alors que se passe t-il quand on n’arrive pas à obtenir exactement le bon pourcentage sur une caractéristique dans notre échantillon par rapport à celui dans la population ?

Nous allons détailler ce cas dans un exemple pour « concrétiser » le raisonnement.

Exemple : On mène une étude dans une entreprise comprenant 14 036 salariés.
Ne pouvant interroger tous le monde, on décide de constituer un échantillon. N’ayant pas pu utiliser la liste de tous les salariés pour constituer un échantillon aléatoire, nous décidons de constituer un échantillon selon la méthode des quotas et de respecter le critère du statut.
4 statuts sont historiquement utilisés dans l’entreprise pour catégoriser les employés : Cadre / Administration / Ouvriers / Commerciaux.

Voici comment se répartissent les salariés :

Catégories Effectifs %
Cadres 1 238 8.8%
Administration 1 122 8.0%
Ouvriers 10 948 78%
Commerciaux 728 5.2%

Il est décidé d’interroger 300 personnes parmi les 14 036 salariés en respectant les proportions de cadres, personnels administratif, ouvriers et commerciaux. Nous devons donc interroger 300 individus comme ceci :

Catégories Nombre à interroger :
Cadres 8.8% x 300 = 26
Administration 8.0% x 300 = 24
Ouvriers 78% x 300 = 234
Commerciaux 5.2% x 300 = 16

Mais, pour des raisons diverses, nous n’arrivons pas à obtenir exactement le bon nombre d’individus sur chaque classe. Voici ce que nous obtenons :

Catégories Nombre interrogé :
Cadres 32
Administration 30
Ouvriers 230
Commerciaux 8

Que faire alors ?

La première chose à faire est de vérifier si l’échantillon constitué est quand même représentatif de notre population avec le test d’ajustement du khi². J’ai pu constaté que cette étape est un peu « oubliée » dans le monde des études au profit des redressements (que nous verrons dans une prochaine note) qui ne sont pourtant utiles que si l’échantillon n’est pas représentatif.

Le principe du test d’ajustement du khi² : c’est le même que le fameux test de tri croisé dont vous avez peut-être déjà entendu parler à savoir vérifier si les différences de proportions entre deux variables sont dues au hasard ou si elle résulte d’un lien entre les variables. Ici on veut s’assurer que les différences entre les proportions obtenues dans l’échantillon et celles de la population sont liées au hasard.

On ne va pas s’embeter avec les formules (pour plus de détails, achetez un bouquin de stat.).
En gros (attention, c’est simplifié) ce qu’il faut savoir:

  • le test du khi² va calculer une sorte d’échantillon idéal (c’est ce que j’ai fait dans le deuxième tableau).
  • Ensuite, ce test fait « un score » des différences entre échantillon idéal et échantillon obtenu (score obtenu par la formule du khi², ce score est appelé « Khi² »).
  • Ce score va ensuite être comparé à un score théorique dans une table donnée (la table du khi²).
  • Si le khi² calculé est supérieur au khi² théorique, cela signifie que notre échantillon obtenu est différent de ce que nous aurions dû avoir avec un échantillon « parfait » : il y a une différence significative entre échantillon constaté et échantillon théorique et cette différence n’est pas liée au hasard.
  • Dans le cas présent, on cherche à savoir si un échantillon obtenu n’est pas différent de l’échantillon théorique ‘parfait’. On cherche donc à avoir un khi² calculé inférieur au khi² théorique.

A noter que je ne parle pas ici des degrés de liberté ou du seuil de signification pour ne pas embrouiller les esprits. J’essaierai d’en reparler en détail quand on abordera le sujet des tris croisés et du test du khi² à nouveau.

Pour revenir à l’exemple : en appliquant le test d’ajustement du khi² à mon exemple, je constate en fait que les différences entre mon échantillon obtenu et l’échantillon théorique ‘idéal’ sont liées au hasard : mon échantillon est donc représentatif de ma population et je n’ai pas besoin de faire de redressement. (Pour être plus précis, mon khi² calculé est de 6.41, le khi² théorique dans la table est de 7.81, je suis en dessous et donc représentatif.)

Voilà pour le principe. Pour concrétiser cela, je vais vous faire un petit cadeau !

Le fichier Excel que vous pouvez télécharger ci-dessous vous servira à faire un test d’ajustement du khi² automatiquement sur une variable comprenant jusqu’à 10 modalités.

Il vous suffit de remplir la partie de gauche avec les caractéristiques de la population puis la partie de droite avec ce que vous avez finalement obtenu lors du terrain et l’Excel vous dit instantanément si votre échantillon est représentatif ou pas. A noter qu’il faut accepter les macros.

Télécharger l’outil (.xls)

Cliquez droit sur le lien > Enregistrer la cible du lien sous…  voilà !

Amusez-vous bien !

13 Commentaires sur “La représentativité (part. I) : test d’ajustement du khi² + un cadeau”

  1. […] Nous l’avons vu, il arrive souvent que l’on n’arrive pas à obtenir un échantillon avec les mêmes caractéristiques que la population (on n’arrive pas à interroger assez de femmes, ou pas assez de CSP+, ou pas assez de retraités, etc.). La première chose à faire est alors de vérifier que l’échantillon est représentatif malgré les différences sur ces caractéristiques (cf. ici). […]

  2. […] est représentatif même si vous avez eu des difficultés à suivre vos quotas ? C’est ici […]

  3. lamarketeuse dit :

    Merci beaucoup pour ce partage enrichissant. C’est avec beaucoup de plaisir que je parcours ce blog simple, pédagogique et édifiant.

  4. Grégoire Hervé-Bazin dit :

    Et merci à vous de prendre le temps de lire et de poster un commentaire encourageant !

  5. […] quelques caractéristiques clés de la population (on peut vérifier cette représentativité avec le test d’ajustement du khi² et dans le cas où l’échantillon n’est pas représentatif, on peut recourir aux […]

  6. […] et empiriques : principes du sondage, méthodes probabilistes, méthodes empiriques / les panels, / la représentativité et les redressements) et de contraintes pratiques (cliquez sur l’image pour […]

  7. DataMiner dit :

    A quand un chouette article sur les arbres de décision sous SPAD ? Je trouve cela passionnant mais sous connu je pense

  8. Zineb dit :

    Bravo pour ce travail, un blog simple et très bien structuré, qui rappellent les bases des études de marché et nous donne des idées créatives pour nos présentation, Merci!

  9. Grégoire Hervé-Bazin dit :

    Merci de vos encouragements, ce n’est pas facile tout le temps d’assurer le rythme de publication, vos remarques (critiques positives et négatives et idées de sujets) sont donc les bienvenues !

  10. Delphine Freelance dit :

    Merci beaucoup pour ce blog très pédagogique et très clair, qui permet de « réviser » ses bases de manière très opérationnelle !

    Et ce petit outil excel est juste parfait 🙂

  11. Diakho dit :

    Merci pour cet outil Excel ! Un vrai bijou !

  12. Pierre dit :

    Une aide précieuse pour un exposé de méthode d’enquête… merci pour votre travail clair et précis.

  13. Grégoire Hervé-Bazin dit :

    Merci à vous de me lire !

  14. AGBETY Christian dit :

    Super! Merci encore et bon courage dans vos travaux.

  15. Gabriel dit :

    Vous étes fantastique…! Merci pour tout

  16. Grégoire Hervé-Bazin dit :

    Merci à vous !

  17. hasni dit :

    merci pour ce travail concis et précis

Soumettre

Top