Méthodos

27 janvier 2025

Blog

#Non-réponses

#Questionnaire

#Pondération

Et oui, vous pouvez aussi faire parler les non-réponses ! Mais de quoi parlons-nous ici ?

Parmi les indicateurs de qualité des réponses, le taux de remplissage indique la proportion de réponses complètes sur l’ensemble de la base de données. Lorsqu’il est faible, cela peut vous poser de sérieuses difficultés, notamment dans le cadre d’analyses bivariées ou, plus encore, multivariées, comme les régressions multiples ou les analyses typologiques.

Face à ces informations manquantes qui affecte la fiabilité et l’enrichissement des données, plusieurs stratégies peuvent être adoptées. Dans cet article, nous vous expliquons les méthodes pour traiter les valeurs manquantes afin d’obtenir des résultats les plus cohérents possibles.

 

I – Conserver les non-réponses

Si le volume des non-réponses reste globalement acceptable ou si, pour certaines questions précises, ces non-réponses reflètent une opinion ou un comportement intéressant à analyser, il est possible de conserver intacte la base de réponses. En effet, cette option permet de ne pas altérer les données initiales et de préserver ainsi l’intégrité des réponses recueillies.

Dans ce cas, il est essentiel d’indiquer clairement, dans les tableaux de synthèse des résultats, le nombre de non-réponses et/ou le taux de réponse de chaque question. Cela permet ainsi de contextualiser les analyses et d’éviter toute interprétation biaisée. De plus, les pourcentages peuvent être calculés de deux manières distinctes :

  • Sur les observations : en prenant en compte l’ensemble des individus interrogés, y compris ceux n’ayant pas répondu à certaines questions.
  • Sur les citations : en se basant uniquement sur les individus ayant formulé une réponse.

Cette approche est particulièrement utile pour des études exploratoires ou descriptives, où l’on souhaite présenter une image fidèle des données collectées sans tenter de combler artificiellement les lacunes.

 

II – Remplacer par la moyenne ou le mode

Une des solutions les plus simples pour traiter les valeurs manquantes consiste à les remplacer par des indicateurs statistiques comme :

  • La moyenne : pour les questions à réponses numériques.
  • Le mode (modalité la plus citée) : pour les questions fermées.

En effet, cette méthode repose sur l’hypothèse que les non-répondants ont des comportements ou des opinions proches de la majorité des répondants. Elle est facile à mettre en œuvre et permet de conserver l’intégralité des données dans les analyses.

Cependant, cette approche présente des limites importantes. En effet, en remplaçant les valeurs manquantes par la moyenne ou le mode, vous réduirez artificiellement la variabilité interindividuelle, ce qui tend à biaiser les résultats en homogénéisant l’échantillon. De plus, elle n’est pas adaptée aux situations où les non-réponses révèlent une caractéristique spécifique ou une singularité des individus.

Cette approche est particulièrement utile lorsque les valeurs manquantes concernent certains items d’une même échelle de mesure. Par exemple, cela peut être appliqué dans le cadre de l’évaluation d’un construit psychologique, comme la « demande psychologique », mesurée à l’aide du modèle KARASEK, souvent utilisé dans les études sur les risques psychosociaux (RPS) en entreprise.

 

III – Remplacer par la valeur du « plus proche voisin »

Une autre stratégie, plus complète et logique, consiste à remplacer une valeur manquante par celle d’un individu présentant des caractéristiques similaires. C’est ce que nous appelons la méthode du « plus proche voisin ». Elle repose sur l’idée qu’un non-répondant partage vraisemblablement des comportements ou des opinions proches de ceux d’un individu ayant un profil similaire.

Ainsi, une fois ce « plus proche voisin » identifié, il convient d’affecter logiquement aux réponses manquantes celles de ce « sosie ».

 

a) Exemple de valeur du «plus proche voisin»

Imaginons une enquête portant sur les touristes, dans laquelle un individu, le n°122, n’a pas répondu à une question concernant son mode d’hébergement (question 1 dans le tableau ci-dessous). Pour combler cette lacune, nous identifions, parmi les 536 individus ayant répondu à l’enquête, celui dont les réponses aux autres questions se rapprochent le plus de celles de l’individu n°122.

En utilisant un calcul de distance, le « plus proche voisin » de l’individu n°122 est l’individu n°51.

En effet, nous observons dans le tableau ci-dessous que les deux personnes ont en commun six réponses sur les 13 possibles, ainsi que des réponses très proches pour les autres questions. Nous affectons donc au non-répondant n°122 la réponse de son plus proche voisin, le n°51, pour le mode d’hébergement. Par déduction, le voilà à l’hôtel !

Non répondant

Individu n°122

Plus proche voisin

Individu n°51

Question

Réponse Question

Réponse

Mode d’hébergement ? Mode d’hébergement Hôtel
Activités Farniente, promenade à pied, gastronomie Activités Farniente, promenade à pied, gastronomie
Importance du soleil Plutôt d’accord Importance du soleil Plutôt d’accord
Importance du sport Plutôt pas d’accord Importance du sport Cela dépend
Importance des contacts Cela dépend Importance des contacts Cela dépend
Importance du club Plutôt pas d’accord Importance du club Plutôt pas d’accord
Importance du monde Plutôt pas d’accord Importance du monde Plutôt pas d’accord
Importance du confort Plutôt d’accord Importance du confort Tout à fait d’accord
Importance de la nature Tout à fait d’accord Importance de la nature Plutôt d’accord
Importance du tout-compris Cela dépend Importance du tout-compris Plutôt d’accord
Importance du repos, du calme Plutôt pas d’accord Importance du repos, du calme Tout à fait d’accord
Importance de la famille Cela dépend Importance de la famille Pas d’accord du tout
Satisfaction globale (note sur 10) 6 Satisfaction globale (note sur 10) 10
Sexe Homme Sexe Homme

 

 

b) Calcul de la proximité

La proximité entre deux individus est évaluée à l’aide d’un indicateur de distance, qui mesure l’écart entre leurs réponses. Plus la distance est proche de 0, plus les individus sont similaires. Inversement, plus celle-ci est élevée, plus les répondants sont différents.

Pour effectuer ce calcul, nous prenons en compte l’ensemble des questions auxquelles les deux individus ont répondu. Toutefois, il est également possible de limiter cette analyse à quelques questions particulières, susceptibles de mieux prédire la valeur manquante, comme le sexe, l’âge ou la profession.

Cette méthode présente plusieurs avantages :

  • elle préserve la variabilité interindividuelle,
  • reflète mieux les relations entre les variables
  • et réduit les biais introduits par des hypothèses trop simplificatrices.

En revanche, elle demande une base de données suffisamment riche pour permettre des comparaisons pertinentes.

 

IV – Le remplacement par la modalité de réponse la plus choisie

Pour remplacer les valeurs manquantes dans un questionnaire, une dernière méthode consiste à utiliser la réponse la plus fréquente donnée par un individu aux autres questions d’une même dimension. Cette approche est particulièrement utile lorsque vous devez calculer un score, car chaque participant doit avoir répondu à toutes les questions pour que le score soit valide.

Cette méthode repose sur le principe de cohérence intra-individuelle. Elle se rapproche de la technique du plus proche voisin, mais s’applique uniquement à un individu donné. L’idée est que, puisque les questions d’une même dimension mesurent un même concept, il est possible de déduire une réponse probable à une question en se basant sur les réponses déjà données aux autres questions.

Par exemple, si un participant répond « tout à fait d’accord » à deux questions sur l’amabilité d’un conseiller – comme « Est-il aimable ? » et « Vous réserve-t-il un accueil chaleureux ? » – nous pouvons supposer qu’il donnerait une réponse similaire à une troisième question de la même nature, comme « Entretient-il une bonne relation avec vous ? ».

 

Conclusion

Finalement, qu’il s’agisse de conserver les non-réponses ou de les remplacer, le choix de la stratégie dépend des objectifs de l’étude et de la nature des données.

Vous avez des données manquantes parmi les réponses de vos enquêtes ? Nos chargés d’étude sont à votre disposition pour vous aider à obtenir des résultats les plus fiables possibles ! Contactez-nous !

 

Séparation

Rédigé par :

 

Marion Chipeaux Marion CHIPEAUX

Chargée d’étude chez Le Sphinx

Domaines d’expertise : Psychologie, Méthodologie d’enquête par questionnaire et Traitement statistique de données quantitatives.

Après plusieurs années passées dans le monde académique en tant que chercheuse en Psychologie sociale au sein de l’Université de Genève, Marion Chipeaux a rejoint l’équipe du Sphinx afin de mettre ses compétences méthodologiques et son expertise en matière de comportements humains au service des entreprises soucieuses d’optimiser et de maintenir la satisfaction de leurs clients, ainsi que le bien-être de leurs employés.


 

Haut de la page