Archive(s) pour la catégorie 'Méthodologie quanti'

Traiter les données, créer des QCM

Je vous en avais parlé dans la première note consacrée au traitement des données, nous allons voir comment rendre compatibles le fichier de données reçu avec les logiciels de saisie, notamment sur les questions à choix multiples.

Ainsi, par rapport aux vidéos de la note « Traiter les données, créer des méta-questions », la vidéo de cette note montre une problématique légèrement différente : la création d’une question à choix multiples compatible avec les logiciels de saisie.

Qu’est ce que je veux dire par là ? Et bien, les terrains codent parfois les données concernant les questions à choix multiples de la façon suivante : 1 colonne = 1 modalité, et dans les cases on trouve « oui » ou « non » (ou d’autres mots qui nous font comprendre que oui ou non l’individu a cité cette modalité).
Ainsi, dans l’exemple ci-dessous, les individus doivent se prononcer sur la connaissance (en assisté) de plusieurs sociétés sur un secteur. A l’origine, la question est UNE question à choix multiples (les sociétés connues), mais le terrain l’a codé en plusieurs questions (une question par société) et les réponses sont « quoted » ou « non quoted » :

Même si ce codage est intéressant pour plusieurs raisons, le problème est que nous n’avons pas la question originelle et le client attend le traitement de cette question.
Voici comment résoudre ce problème, encore une fois grâce à la manipulation des données sous Excel :

Deux solutions possibles (il y a d’autres) pour créer une QCM en une seule colonne à partir de ces données :


La 1ère vidéo vous montre comment faire la QCM en créant une formule de type =A1& »/ »&B1& »/ »&C1… Plus d’explications dans la vidéo (je vous conseille de la regarder en 720p) !


La 2ème vidéo vous montre comment faire la QCM via la formule « concaténer ». Plus d’explications dans la vidéo !

Traiter les données, créer des méta-questions

Vous avez donc terminé votre questionnaire (revoir toutes les notes relatives à sa construction) et vous l’avez administré ou vous l’avez fait administrer.

Après l’avoir saisi ou l’avoir fait saisir, vous vous retrouvez donc avec vos données.

Première question : A quoi ressemblent vos données brutes ?
Tout simplement à un tableau avec, en colonne, les questions, et en lignes, les individus. Au croisement d’une colonne et d’une ligne, on a donc la réponse de l’individu concerné dans la ligne à la question concernée dans la colonne.
A noter que ce tableau peut prendre plusieurs formes selon les programmes ou selon les sociétés de terrain qui vous font l’administration. On peut ainsi avoir des fichiers CSV, texte ou tout autre types… mais en général (je n’ai jamais vu l’inverse), ils sont toujours compatibles avec Excel et facilement présentables sous la forme questions en colonne / individus en ligne décrite ci-dessus.


Exemple sur lequel on a une première colonne avec une question fermée type échelle d’intention, une question de type note sur 10, deux questions ouvertes (colonnes L et M), puis à nouveau des questions fermées à réponse unique type échelles d’accord.

    Cette présentation des données sous forme de tableau à des implications immédiates :

  • En cas de terrain qui reprendrait après un arrêt (on décide que l’échantillon n’est pas suffisant et on « ouvre à nouveau » le terrain), pour rajouter un individu, il suffit d’ajouter une ligne à notre fichier avec les réponses adéquates.
  • De même, pour ajouter une question, ou plus exactement une variable, il suffit d’insérer une colonne à notre fichier. Cela est important à comprendre : vous pouvez en effet, ajouter des nouvelles variables entièrement construites (en utilisant les différentes formules conditionnelles d’Excel ou les filtres par exemple) en plein questionnaire, facilitant ainsi la création de groupes de population ou les profils-types (pas toujours faciles à créer dans les logiciels de traitement).

Voici deux vidéos sur la création de ces fameuses nouvelles questions, construites à partir des questions posées, qui permettent de construire facilement des sous-population ou des « méta-données » comme je les appelles (prise en compte de données multiples) :

1ère vidéo : création d’une méta-question en utilisant les formules Excel (je vous conseille de la regarder en 720p) :


2ème vidéo : création d’une méta-question en utilisant les filtres Excel (je vous conseille de la regarder en 720p) :

Nous verrons dans une troisième vidéo comment nous pouvons également utiliser Excel pour résoudre un « problème » relativement courant et créer des questions à choix multiples compatibles avec les logiciels de saisie.

Le questionnaire : finaliser le questionnaire !

Après avoir vu une multitude d’étapes pour construire son questionnaire (notes consultables ici), il est temps de finaliser celui-ci.

Je vous rassurer, il ne vous reste plus qu’une dernière chose à faire : le pré-tester.
Il s’agit d’administrer le questionnaire à 10-20 personnes appartenant à la cible définitive pour vérifier plusieurs choses :

  • Si celui-ci « passe » bien : pas d’incompréhension, pas de question sans réponse, pas de question sur laquelle un individu ne peut pas se prononcer (oubli de la modalité « NSP » par exemple), etc.
  • Il est également temps de s’assurer de la durée du questionnaire. En effet, si vous sous-traitez votre questionnaire à une boîte de terrain (comme Update, cf. ici), elle vous parlera la plupart du temps en durée de questionnaire et pas forcément en nombre de questions.
    Respecter la durée convenue dans le devis est donc une priorité (pour respecter le budget… mais aussi pour ne pas se retrouver avec des individus qui abandonnent le questionnaire car jugé trop long).

Dans les faits, les pré-tests sur 10-20 personnes de la cible sont rares… car ils coûtent très chers ! Les instituts se servent alors de leur expérience pour garantir le bon déroulement du questionnaire. Il arrive aussi que celui-ci soit testé sur des collègues ne connaissant pas l’étude. Si cette pratique n’est pas exactement idéale, elle est préférable au lancement d’un questionnaire jamais pré-tester.

Sondages d’opinion en ligne : bilan des débats

Précision importante en introduction : je ne suis ni politologue, ni spécialiste dans les sondages d’opinion, qui constituent une branche à part entière des sondages.

Cependant, avec le sondage Harris sur le premier tour de l’élection présidentielle de 2012 et les nombreux débats que les résultats ont suscités, notamment sur la méthode de ce sondage politique, à savoir l’administration online, je me suis dit qu’une note essayant de rendre compte des différentes critiques que j’ai pu lire concernant les sondages d’opinion online mais aussi des arguments des défenseurs de ces méthodes (moins faciles à trouver) s’imposait.
J’espère qu’à la fin de cette note, vous aurez plus de recul pour mieux vous faire un avis sur cette méthode particulière sur ce sujet particulier.


L’administration online ne permettrait pas de s’assurer de la sincérité des réponses

La critique : Plusieurs journalistes, acteurs de la vie politique et commentateurs politiques soulignent que les sondages online ont l’inconvénient qu’on ne peut s’assurer de la sincérité des réponses. Deux sous-entendus dans ce reproche :

  • Le répondant, derrière son écran, peut plus facilement cacher la vérité que face à un enquêteur (ou au téléphone avec celui-ci) où le comportement serait alors plus spontané ;
  • Certains soulignant qu’on ne peut s’assurer de l’identité du répondant (exemple : je m’inscris pour répondre à un sondage puis laisse mon père cocher les réponses).

La défense : Face à ces critiques, plusieurs arguments peuvent être cités :

  • Internet ne garantie pas la franchise des répondants… mais le face à face ou le téléphone non plus. Comme le souligne Yves-Marie Cann (Directeur d’études au Département Opinion et Stratégies d’entreprise de l’Ifop), qu’une enquête soit réalisée en face-à-face, par téléphone ou par Internet, les personnes interrogées restent à tout moment maîtres des informations qu’elles acceptent ou non de nous transmettre. C’est en contrôlant la cohérence des réponses (en croisant des questions) et en instaurant une relation de confiance avec les interrogés (autant que possible) qu’un institut peut réaliser un sondage, mais en aucun cas celui-ci n’a pour but de réaliser une enquête policière.
  • Les instituts disposent de moyens techniques simples pour s’assurer que les individus de leur panel de répondants sont bien ceux qu’ils ont déclaré être : l’individu répond à certaines questions lors de son recrutement, il doit donner des réponses cohérentes à celles-ci lors de l’enquête. De plus, le recrutement des individus du panel est permanent et se fait via de multiples sites partenaires. Enfin, le panel des répondant est géré très strictement (non professionnalisation, renouvellement de celui-ci…).
  • En plus de s’assurer du profil des personnes recrutés et d’entrer avec eux dans une relation de confiance (moyens également utilisés dans les enquêtes téléphoniques et face à face d’ailleurs), les instituts procèdent à des vérifications des réponses des individus pour éliminer les comportements « douteux » (une seule et unique réponse répétée pendant tout le questionnaire, même série de réponse qui revient régulièrement : 1-2-3 / 1-2-3 / 1-2-3,…), tout en contrôlant le temps passé à répondre (car les individus sont chronométrés et leur délai de réponse est comparé au délai moyen pour s’assurer qu’un répondant ne « triche » pas.
  • Enfin, au-delà de simplement garantir du mieux possible l’honnêteté des répondants, les sondages réalisés par Internet peuvent apporter un avantage par rapport au téléphone et au face à face : le répondant peut aussi s’avérer plus honnête seul face à son écran que face à un enquêteur, notamment sur les intentions de vote pour les extrêmes (constat déjà réalisé par l’Ifop dès 2007 sur l’intention de vote pour Jean-Marie Le Pen plus affirmée via sondage online que par téléphone).



Les sondages online ne garantiraient pas d’obtenir un échantillon représentatif

La critique : Les sondages online ne garantiraient pas la représentativité car ils sont effectués via un média qui ne touche qu’une partie des français. Il s’agit ici de la critique la plus fréquente et, à mon avis, de la plus sérieuse à l’encontre des sondages online.
En effet, en ce début d’année 2011 la part des internautes parmi les français atteint environ 70%. Un sondage via Internet ne pourrait donc rendre compte de l’avis de près de 3 français sur 10, ce qui peut faire craindre une erreur de couverture importante.
Cette critique semble d’autant plus fondée que quelques différences d’opinion, d’attitudes ou de comportements ont été constatées (dans une étude du Crédoc) entre internautes et non-internautes, notamment sur des opinions en matière de mœurs… et ces différences s’expliquaient justement par le fait d’être un internaute ou pas !


La défense : Face à cette critique, plusieurs rappels :

  • De même qu’aucun média ne peut garantir l’honnêteté des répondants, aucun média ne peut garantir qu’on accèdera à tous les français et donc qu’on en constituera un échantillon parfait. Tous les moyens de contacter les répondants sont imparfaits, et ainsi, le téléphone peut exclure une partie de la population (liste rouge ? prise en compte des portables ? individus injoignables pendant les heures d’administration ? etc.), et le face à face peut également souffrir de biais (certains quartiers évités par les terrains, impossibilité d’interroger certains individus – hospitalisés par exemple, etc.). Internet est certes imparfait, mais toutes les méthodes le sont, il faut donc conserver ce fait en tête lors de la conduite de l’étude (quel que soit la méthode de terrain).
  • La part des internautes dans la population française grandit en permanence, le profil des internautes est donc de plus en plus similaire à celui des français, et cette tendance ne peut que s’améliorer, rendant la critique de la non représentativité d’Internet de moins en moins pertinente et légitime.
  • Réaliser un sondage par Internet offre un avantage que n’offre pas les autres terrains : la possibilité laissée au répondant de se prononcer quand il le souhaite. En effet, rappelons qu’un terrain en face à face ou téléphonique est généralement conduit pendant des horaires fixes (ceux où travaillent les enquêteurs), et ces horaires excluent, de fait, une partie de la population (travail nocturne ?). Celle-ci peut, en revanche, accéder 24h/24 au questionnaire online et se prononcer.
  • Les valeurs des individus qui ont Internet (et qui peuvent être interrogés) et les valeurs des individus qui n’ont pas Internet sont davantage déterminées par les critères socio-démographiques classiques (Age, CSP,…) que par le fait d’avoir Internet. En d’autres termes, Internet ne semble pas être LE principal facteur explicatif ou influençant les valeurs (politiques sociales, politiques familiales, jugements sur la société : cf. rapport du Crédoc).
  • Enfin, les précédents sondages politiques online ont montré que les informations récoltées par Internet et par téléphone étaient similaires. Pour plus de détails sur ce point, je vous incite à aller lire le troisième point de ce document de l’Ifop qui m’a fortement aidé à écrire cette note.



La rétribution

La critique : comparativement aux sondages par téléphone ou en face à face (la plupart du temps non rétribués), certains sondages politique online sont rétribués (ce n’est pas le cas de tous cependant). Au-delà de la rétribution financière accordée aux répondants, le fait de motiver la participation à un sondage online par une rétribution est critiqué pour deux raisons :

  • Tout d’abord, c’est une critique éthique qui est formulée : certains pensent en effet qu’il est incompatible de se faire payer pour répondre à un sondage politique online alors que voter est un acte citoyen et gratuit. L’avis politique semble incompatible avec une rétribution financière.
  • De plus, inciter financièrement les participants aux sondages online risque d’entraîner une professionnalisation des répondants : ceux-ci seraient ainsi motivés à répondre à de nombreux sondages pour arrondir leurs fins de mois. L’habitude de répondre à plusieurs enquêtes leur font prendre des automatismes qui rendent les réponses moins spontanées.

La défense : Face à ces critiques, plusieurs constats :

  • Les professionnels des sondages (politiques) online rappellent que les bases des données de répondants recrutés via de nombreux sites sont contrôlées et les panels sont ainsi gérés qu’un individu y appartenant depuis un temps trop long en est exclu. De plus, nous l’avons rappelé précédemment, les comportements de réponse « douteux » sont exclus des réponses et les individus uniquement motivés par l’argent ont ainsi de fortes chances de ne pas être considérés dans les résultats (car ils auront répondu vite, toujours la même réponse).
  • La proposition d’une incentive contre la réponse au sondage est une pratique courante (voire banale) pour contourner le risque de n’avoir que des répondants impliqués, c’est à dire les individus qui participent volontiers aux sondages. Une incentive permet donc de capter des répondants réticents aux sondages, qui, dans le cas contraire, ne seraient pas interrogés.
  • Enfin, les sondages ne sont pas directement rémunérés. Il s’agit, le plus souvent, d’une participation à un tirage au sort pour gagner un cadeau (qu’un seul des répondants gagne), ce qu’on appelle une incentive. Rappelons que cette pratique est encadrée… et légale !



A noter une autre critique envers les sondages d’opinion beaucoup entendue récemment porte sur les méthodes de redressement appliquées aux résultats. Cette critique concerne cependant tous les sondages d’opinion et notamment les coefficients appliqués à l’extrême droite alors que Marine Le Pen a pris la place de son père, et ne concerne pas exclusivement les sondages online, sujet de cette note, je ne l’approfondirai donc pas.
Si vous souhaitez en savoir plus sur cette critique et sur son fondement, je vous invite à lire cet excellent article du Monde : les sondeurs ont-ils les bonnes méthodes d’évaluation ?.



Sources :
Le Monde : Marine Le Pen : les sondeurs ont-ils les bonnes méthodes d’évaluation ?
Rue 89 : Sondage : Marine Le Pen à 23% au premier tour ? Peu probable
Libération : Rétribuer un panel interrogé sur ses intentions de vote: est-ce grave, sondeur ?
La République du Centre : Pour plus de « transparence » dans les sondages
Le Monde : Sondages : le devoir de vérité
Marianne : Sondage Harris: une chance de faire réfléchir les politiques ?
Rapport d’information du Sénat : Sondages et démocratie : pour une législation plus respectueuse de la sincérité du débat politique
Rapport d’information du Sénat (pdf). Voir plus particulièrement l’Annexe 2 (page 65) pour les marges d’erreurs (je reviendrai sur ce sujet).
Crédoc : Enquêtes en ligne : peut-on extrapoler les comportements et les opinions des internautes à la population générale ?
Ifop : Sondages en ligne : une méthodologie éprouvée par Yves-Marie Cann. C’est ce document qui est la principale source utilisée ici pour les arguments « pro » sondages online. Un document à lire pour en savoir plus et continuer à creuser le sujet.
Statosphère : Présidentielles 2012 : l’importance du calcul des marges d’erreur
@yvesmariecann sur Twitter (Directeur d’études au Département Opinion et Stratégies d’entreprise de l’Ifop)
@guillaume_petit sur Twitter (Responsable sondages publiés chez TNS Sofres)