Construire un échantillon représentatif & fiable

Retour

Méthodos

3 décembre 2018

Blog

#Echantillon

#Panel

#Redressement

#Quotas

#Intervalle de confiance

Bien sélectionner la population à interroger, c’est garantir la fiabilité des résultats que l’on va obtenir.

Le responsable de l’étude a rarement les moyens de contacter tous les membres de la population qui l’intéresse. Les statisticiens l’appellent la « population-mère ». Dans ce cas, il réaliserait un « recensement« . Du coup, il doit se limiter à une population plus réduite (= l’échantillon) qui est censée représenter la population-mère et qui doit nous permettre de généraliser les résultats observés.

En ce sens, l’échantillon doit être :

précis : d’une taille suffisante pour que l’erreur d’estimation qu’il produit soit acceptable. Une formule permet de calculer l’erreur en fonction de la taille de l’échantillon.
représentatif : sa composition doit être semblable à celle de la population-mère.

Méthode d’échantillonnage et échantillon représentatif

Deux grandes familles de méthodes existent : les méthodes probabilistes ou les méthodes empiriques.

a) Les méthodes probabilistes

La méthode probabiliste (ou aléatoire) consiste à sélectionner au hasard les individus à interroger selon une méthode qui garantisse à chacun, la même probabilité d’être interrogé. Pour cela, il faut disposer de la liste complète des membres de la population-mère pour pouvoir réaliser une véritable sélection aléatoire. Par exemple, à partir d’une liste de personnes dans un tableur et une fonction d’extraction aléatoire de n personnes. C’est la méthode la plus scientifique, qui s’appuie sur la « loi des grands nombres » définie par Bernouilli à la fin du XVIIè siècle, selon laquelle les caractéristiques d’un échantillon aléatoire se rapprochent des caractéristiques statistiques de la population lorsque la taille de l’échantillon augmente.

b) Les méthodes empiriques

La méthode empirique consiste à composer son échantillon sur les bases des caractéristiques connues de la population-mère. On sait qu’il y a 52% de femmes dans la population française. On veut un échantillon représentatif de 500 personnes. On interrogera exactement 260 femmes. On fixe alors ce qu’on appelle des quotas pour la collecte des réponses.

Si l’échantillon ne respecte pas ces critères de représentativité, il est considéré comme biaisé et il faudra effectuer un redressement ou compléter l’enquête avec d’autres réponses.

La précision d’un échantillon

Si l’échantillon est extrait de façon aléatoire, il est possible de connaître les caractéristiques de la population à partir de celles de l’échantillon. Cette connaissance est une estimation : l’information exacte (% ou moyenne) calculée dans l’échantillon, permet de déterminer la fourchette, ou intervalle de confiance dans lequel se situe la valeur correspondante pour la population totale. Le risque d’erreur de l’estimation peut être contrôlé. Moins on souhaite prendre de risque, plus l’intervalle sera large et l’estimation imprécise.

Pour un niveau de risque donné, l’imprécision de l’estimation dépend de la taille de l’échantillon et de la proportion, ou de l’écart type observés dans l’échantillon. La précision croît donc avec l’augmentation de la taille de l’échantillon. Les grands échantillons sont préférables aux petits, mais l’effet de l’accroissement de l’échantillon est de moins en moins sensible.

Enfin, contrairement à une idée fausse assez répandue, la précision ne dépend pas du taux de sondage. Par exemple, l’intervalle de confiance pour un échantillon de 200 personnes est le même que le sondage porte sur la population parisienne, la population française ou la population des Etats Unis.

L’intervalle de confiance d’une proportion ne dépend en effet que de la proportion « p » observée et de la taille « n » de l’échantillon. Pour mesurer l’intervalle de confiance, la formule est alors :

Intervalle de confiance : [ p-1,96*√(p*(1-p)/n) ; p+1,96*√(p*(1-p)/n) ]

Voir une animation pour mieux comprendre le principe de l’intervalle de confiance : https://www.sphinxonline.com/suristat/simu1.htm

NB : Il est admis que les règles ci-dessus peuvent s’appliquer également à un échantillon constitué de façon empirique et représentatif de la population-mère sur plusieurs critères.

Le redressement : corriger un échantillon

a) Le redressement par suppression

Afin de retrouver les proportions attendues (celles de la population-mère), on peut supprimer aléatoirement des répondants parmi les catégories sur-représentées. Cela signifie que l’on va réduire d’autant la taille globale de notre échantillon et perdre en précision puisque l’erreur associée va augmenter.

b) Le redressement par pondération

Via cette méthode, on va conserver toutes les réponses enregistrées mais pour le dépouillement, on va attribuer à chaque répondant un « poids » particulier en fonction de la catégorie à laquelle il appartient. Ce poids est supérieur à 1 si sa catégorie n’est pas assez représentée et il est inférieur à 1 si celle-ci est sur-représentée. Pour le dépouillement des résultats ensuite, l’avis d’un individu ne pèsera plus 1 mais ce nouveau poids calculé. Par exemple, si j’ai deux fois moins de femmes que prévu dans mon échantillon, le « poids » d’une femme sera 2 et la réponse de chaque femme comptera double.

Cette méthode de redressement peut difficilement être mise en œuvre sans l’aide d’un logiciel. Pour chaque catégorie, il convient de calculer le poids à utiliser en vue du redressement par pondération. Les poids sont ensuite appliqués à chaque dépouillement envisagé. Pour chaque variable de l’enquête, on multiplie les effectifs obtenus par le poids de redressement de chaque catégorie, de nouvelles fréquences « redressées » sont ainsi obtenues.

Pour tout savoir sur le redressement d’échantillon, consultez notre article sur comment corriger un échantillon !

La méthode des quotas

Les protocoles de collecte par l’Internet garantissent très rarement une méthode de sélection aléatoire. En revanche, ils permettent de contacter rapidement et à moindre coût un grand nombre d’interlocuteurs. On peut ainsi extraire après coup et selon une méthode aléatoire, un échantillon représentatif selon des quotas pré-définis.

Par ailleurs, si le budget le permet, les fournisseurs de panélistes online (comme ToLuna ou Bilendi par exemple) proposent un service de sélection des répondants par quotas et nous permettent généralement d’obtenir l’échantillon souhaité.

Les méthodes présentées auparavant proposent un plan d’échantillonnage a priori mais on peut aussi considérer que l’échantillon peut être extrait a posteriori d’un grande base de répondants.

On pourra avoir recours à cette même technique pour constituer un échantillon représentatif, à partir d’une grande base de réponses obtenues auprès d’un échantillon de convenance. Typiquement, cette démarche peut être utilisée dans le cadre d’une enquête hébergée sur Internet et diffusée par e-mail.

Dans la plupart des projets d’étude, il est primordial de définir un échantillonnage de façon rigoureuse. Dans le cas contraire, les résultats observés ne pourraient être en aucun cas généralisés. Les conclusions n’auraient aucune valeur et tous les efforts déployés auront été vains. Prenez le temps de bien comprendre les règles de l’échantillonnage et de choisir votre cible de répondants en conséquence.

Rédigé par :

Stéphane GANASSALI

Professeur en marketing

Domaines d’expertise : Analyse de marché, comportement du consommateur, recherche en marketing, analyse de données.

Stéphane Ganassali est maître de conférences en sciences de gestion à l’IAE Savoie Mont Blanc, où il dispense des cours de marketing, de méthodologie d’enquête et d’analyse du comportement des consommateurs. En parallèle, il exerce le rôle de conseiller scientifique auprès de la société Le Sphinx.

Échantillonnage :
construire un échantillon représentatif et fiable.

Blog