Note(s) taguée(s) 'redressement'

La représentativité (part. II) : les redressements

Nous en avons parlé, (si vous n’avez pas vu : c’est ici) dans une étude, on se focalise sur un échantillon pour généraliser les résultats mesurés à une population. Pour ceci, l’échantillon doit être représentatif de la population ; i.e. avoir des caractéristiques comparables à la population (notez que je fais référence aux échantillons empiriques ; plus de détails et de nuances ici).

Nous l’avons vu, il arrive souvent que l’on n’arrive pas à obtenir un échantillon avec les mêmes caractéristiques que la population (on n’arrive pas à interroger assez de femmes, ou pas assez de CSP+, ou pas assez de retraités, etc.). La première chose à faire est alors de vérifier que l’échantillon est représentatif malgré les différences sur ces caractéristiques (cf. ici).

Mais que faire quand le test d’ajustement du khi² vous apprends que votre échantillon n’est pas représentatif de votre population (pour mémoire, dans mon exemple sur la note consacrée au test d’ajustement du khi², j’avais volontairement pris un échantillon qui était représentatif malgré les différences avec la population sur les caractéristiques de représentativité) ?

La première possibilité est d’interroger plus d’individus des catégories mal représentées. Bien sur, cela n’est faisable que si le budget et le temps nécessaires sont disponibles… et que les individus qui « manquent » sont joignables.

L’autre possibilité, fréquemment utilisée dans les études, est de recourir au(x) redressement(s).

Le principe des redressements est en fait d’estimer les réponses des non-répondants (les individus qu’on n’a pas réussi à interroger en nombre suffisant) grâce aux réponses des répondants.

Concrètement, il s’agit d’appliquer un coefficient de pondération (coefficient de redressement ; celui-ci est calculé par tous les logiciels statistiques) aux questionnaires enregistrés.

Exemple : si nous n’avons réussi qu’à obtenir 45% de femmes dans notre échantillon alors qu’il devait en contenir 52% pour être représentatif de notre population, le redressement va pondérer les questionnaires remplis par des femmes par un coefficient de 1.15 (52% divisé par 45%). De plus, le redressement va, logiquement, appliquer un coefficient de 0.87 aux questionnaires remplis par les hommes (48% divisé par 55%).

Catégories % obtenus % souhaités Coeff. de redressement
Femmes 45% 52% 1.15
Hommes 55% 8.0% 0.87

Le principe des redressements est finalement assez simple : il s’agit de baisser ou d’augmenter le poids de certains questionnaires afin de faire coller les critères de l’échantillon avec ceux de la population. Le but est bien sûr d’appliquer les coefficients trouvés à toutes les réponses du questionnaire.

Si le but est simple, j’ai tendance à penser que les redressements doivent être utilisés avec beaucoup de pédagogie et de prudence. Les redressements « créent » en effet des réponses virtuelles (même si basées sur les réponses mesurées). Cela peut-être perturbant pour un client qui ne vient pas des études d’avoir à faire à des effectifs qui ne sont pas vraiment concrets…

L’autre prudence à avoir est de ne pas exagérer un redressement… Quelle légitimité d’un redressement qui multiplie le poids d’une catégorie d’individu par 10 ? De mon côté, je ne connais pas de recommandation « officielle » (statistiquement parlant) sur les limites à considérer pour les redressements. J’ai tendance à me méfier d’un redressement effectué sur moins de 50 individus et / ou d’un redressement qui va multiplier le poids de certains individus par plus de 2 (mais bien sur, cela est à étudier au cas par cas, en fonction de l’homogénéité des comportements et de la difficulté du terrain).

Si vous souhaitez en savoir encore plus sur les redressements, je vous ai trouvé un dossier encore plus complet sur les redressements ; cliquez ici.
Cliquez ci-dessus pour afficher le dossier complet
Réduire

Dossier Via

La représentativité (part. I) : test d’ajustement du khi² + un cadeau

Souvenez-vous, nous avons vu (ici) qu’un des principes des sondages est de généraliser un phénomène étudié sur un échantillon tiré d’une population à l’ensemble de cette dernière (cette généralisation est appelée « inférence statistique« ). Pour faire cette inférence statistique, l’échantillon doit être représentatif de la population étudiée.

Nous avons aussi vu (ici) que, lorsque l’on travaille avec des méthodes probabilistes, les échantillons sont automatiquement représentatifs (pour voir en détails, différents types d’échantillon probabilistes, voir ici).

En revanche, avec des méthodes empiriques, les échantillons sont représentatifs par construction.
Cela signifie que l’institut choisit des critères sur lesquels l’échantillon possède les mêmes caractéristiques que la population (pour voir en détail des échantillons empiriques, voir ici).

Alors que se passe t-il quand on n’arrive pas à obtenir exactement le bon pourcentage sur une caractéristique dans notre échantillon par rapport à celui dans la population ?

Nous allons détailler ce cas dans un exemple pour « concrétiser » le raisonnement.

Exemple : On mène une étude dans une entreprise comprenant 14 036 salariés.
Ne pouvant interroger tous le monde, on décide de constituer un échantillon. N’ayant pas pu utiliser la liste de tous les salariés pour constituer un échantillon aléatoire, nous décidons de constituer un échantillon selon la méthode des quotas et de respecter le critère du statut.
4 statuts sont historiquement utilisés dans l’entreprise pour catégoriser les employés : Cadre / Administration / Ouvriers / Commerciaux.
Voici comment se répartissent les salariés :

Catégories Effectifs %
Cadres 1 238 8.8%
Administration 1 122 8.0%
Ouvriers 10 948 78%
Commerciaux 728 5.2%

Il est décidé d’interroger 300 personnes parmi les 14 036 salariés en respectant les proportions de cadres, personnels administratif, ouvriers et commerciaux. Nous devons donc interroger 300 individus comme ceci :

Catégories Nombre à interroger :
Cadres 8.8% x 300 = 26
Administration 8.0% x 300 = 24
Ouvriers 78% x 300 = 234
Commerciaux 5.2% x 300 = 16

Mais, pour des raisons diverses, nous n’arrivons pas à obtenir exactement le bon nombre d’individus sur chaque classe. Voici ce que nous obtenons :

Catégories Nombre interrogé :
Cadres 32
Administration 30
Ouvriers 230
Commerciaux 8

Que faire alors ?

La première chose à faire est de vérifier si l’échantillon constitué est quand même représentatif de notre population avec le test d’ajustement du khi². J’ai pu constaté que cette étape est un peu « oubliée » dans le monde des études au profit des redressements (que nous verrons dans une prochaine note) qui ne sont pourtant utiles que si l’échantillon n’est pas représentatif.

Le principe du test d’ajustement du khi² : c’est le même que le fameux test de tri croisé dont vous avez peut-être déjà entendu parler à savoir vérifier si les différences de proportions entre deux variables sont dues au hasard ou si elle résulte d’un lien entre les variables. Ici on veut s’assurer que les différences entre les proportions obtenues dans l’échantillon et celles de la population sont liées au hasard.

On ne va pas s’embeter avec les formules (pour plus de détails, achetez un bouquin de stat.).
En gros (attention, c’est simplifié) ce qu’il faut savoir:

  • le test du khi² va calculer une sorte d’échantillon idéal (c’est ce que j’ai fait dans le deuxième tableau).
  • Ensuite, ce test fait « un score » des différences entre échantillon idéal et échantillon obtenu (score obtenu par la formule du khi², ce score est appelé « Khi² »).
  • Ce score va ensuite être comparé à un score théorique dans une table donnée (la table du khi²).
  • Si le khi² calculé est supérieur au khi² théorique, cela signifie que notre échantillon obtenu est différent de ce que nous aurions dû avoir avec un échantillon « parfait » : il y a une différence significative entre échantillon constaté et échantillon théorique et cette différence n’est pas liée au hasard.
  • Dans le cas présent, on cherche à savoir si un échantillon obtenu n’est pas différent de l’échantillon théorique ‘parfait’. On cherche donc à avoir un khi² calculé inférieur au khi² théorique.

A noter que je ne parle pas ici des degrés de liberté ou du seuil de signification pour ne pas embrouiller les esprits. J’essaierai d’en reparler en détail quand on abordera le sujet des tris croisés et du test du khi² à nouveau.

Pour revenir à l’exemple : en appliquant le test d’ajustement du khi² à mon exemple, je constate en fait que les différences entre mon échantillon obtenu et l’échantillon théorique ‘idéal’ sont liées au hasard : mon échantillon est donc représentatif de ma population et je n’ai pas besoin de faire de redressement. (Pour être plus précis, mon khi² calculé est de 6.41, le khi² théorique dans la table est de 7.81, je suis en dessous et donc représentatif.)

Voilà pour le principe. Pour concrétiser cela, je vais vous faire un petit cadeau !

Le fichier Excel que vous pouvez télécharger ci-dessous vous servira à faire un test d’ajustement du khi² automatiquement sur une variable comprenant jusqu’à 10 modalités.

Il vous suffit de remplir la partie de gauche avec les caractéristiques de la population puis la partie de droite avec ce que vous avez finalement obtenu lors du terrain et l’Excel vous dit instantanément si votre échantillon est représentatif ou pas. A noter qu’il faut accepter les macros.

Icône Excel
Télécharger l’outil (.xls)

Cliquez droit sur le lien > Enregistrer la cible du lien sous…  voilà !

Amusez-vous bien !