Échantillonnage d'enquête - Survey sampling

En statistique , l' échantillonnage d'enquête décrit le processus de sélection d'un échantillon d'éléments d'une population cible pour mener une enquête. Le terme « enquête » peut désigner de nombreux types ou techniques d'observation différents. Dans l'échantillonnage des enquêtes, il s'agit le plus souvent d'un questionnaire utilisé pour mesurer les caractéristiques et / ou les attitudes des personnes. Différentes façons de contacter les membres d'un échantillon une fois qu'ils ont été sélectionnés font l'objet de la collecte des données d'enquête . Le but de l' échantillonnage est de réduire le coût et / ou la quantité de travail qu'il faudrait pour enquêter sur l'ensemble de la population cible. Une enquête qui mesure l'ensemble de la population cible s'appelle un recensement . Un échantillon fait référence à un groupe ou à une section d'une population à partir de laquelle des informations doivent être obtenues

Les échantillons d'enquête peuvent être globalement divisés en deux types: les échantillons probabilistes et les super échantillons. Les échantillons basés sur les probabilités mettent en œuvre un plan d'échantillonnage avec des probabilités spécifiées (peut-être des probabilités adaptées spécifiées par une procédure adaptative). L'échantillonnage basé sur les probabilités permet une inférence basée sur le plan sur la population cible. Les inférences sont basées sur une distribution de probabilité objective connue qui a été spécifiée dans le protocole de l'étude. Les inférences issues d'enquêtes basées sur les probabilités peuvent encore souffrir de nombreux types de biais.

Les enquêtes qui ne sont pas fondées sur un échantillonnage probabiliste ont plus de difficulté à mesurer leur biais ou leur erreur d'échantillonnage . Les enquêtes basées sur des échantillons non probabilistes ne parviennent souvent pas à représenter les personnes de la population cible.

Dans la recherche par sondages universitaires et gouvernementaux, l'échantillonnage probabiliste est une procédure standard. Aux États-Unis, la «List of Standards for Statistical Surveys» du Bureau de la gestion et du budget stipule que les enquêtes financées par le gouvernement fédéral doivent être réalisées:

sélectionner des échantillons à l'aide de méthodes statistiques généralement acceptées (par exemple, des méthodes probabilistes pouvant fournir des estimations de l'erreur d'échantillonnage). Toute utilisation de méthodes d'échantillonnage non probables (par exemple, des échantillons de coupure ou basés sur un modèle) doit être justifiée statistiquement et permettre de mesurer l'erreur d'estimation.

L'échantillonnage aléatoire et l'inférence basée sur le plan sont complétés par d'autres méthodes statistiques, telles que l'échantillonnage assisté par modèle et l'échantillonnage basé sur un modèle.

Par exemple, de nombreuses enquêtes comportent des quantités importantes de non-réponse. Même si les unités sont initialement choisies avec des probabilités connues, les mécanismes de non-réponse sont inconnus. Pour les enquêtes comportant une non-réponse importante, les statisticiens ont proposé des modèles statistiques avec lesquels les ensembles de données sont analysés.

Les questions liées à l'échantillonnage des relevés sont abordées dans plusieurs sources, dont Salant et Dillman (1994).

Échantillonnage probabiliste

Dans un échantillon probabiliste (également appelé échantillon «scientifique» ou «aléatoire»), chaque membre de la population cible a une probabilité connue et non nulle d'inclusion dans l'échantillon. Une enquête basée sur un échantillon probabiliste peut en théorie produire des mesures statistiques de la population cible qui sont:

Un échantillon d'enquête basé sur les probabilités est créé en construisant une liste de la population cible, appelée la base de sondage , un processus randomisé pour sélectionner des unités à partir de la base de sondage, appelé une procédure de sélection, et une méthode pour contacter les unités sélectionnées pour leur permettre de terminer. l'enquête, appelée méthode ou mode de collecte de données. Pour certaines populations cibles, ce processus peut être facile; par exemple, échantillonner les employés d'une entreprise à l'aide de listes de paie. Cependant, dans les grandes populations désorganisées, la simple construction d'une base de sondage appropriée est souvent une tâche complexe et coûteuse.

Les méthodes courantes de réalisation d'un échantillon probabiliste de la population à domicile aux États-Unis sont l'échantillonnage par zone de probabilité, l'échantillonnage téléphonique à composition aléatoire et, plus récemment, l'échantillonnage basé sur les adresses.

Dans l'échantillonnage probabiliste, il existe des techniques spécialisées telles que l' échantillonnage stratifié et l' échantillonnage en grappes qui améliorent la précision ou l'efficacité du processus d'échantillonnage sans modifier les principes fondamentaux de l'échantillonnage probabiliste.

La stratification est le processus de division des membres de la population en sous-groupes homogènes avant l'échantillonnage, sur la base d'informations auxiliaires sur chaque unité d'échantillonnage. Les strates doivent être mutuellement exclusives: chaque élément de la population doit être affecté à une seule strate. Les strates doivent également être collectivement exhaustives: aucun élément de la population ne peut être exclu. Ensuite, des méthodes telles que l'échantillonnage aléatoire simple ou l'échantillonnage systématique peuvent être appliquées dans chaque strate. La stratification améliore souvent la représentativité de l'échantillon en réduisant l'erreur d'échantillonnage.

Biais dans l'échantillonnage probabiliste

Les biais dans les enquêtes sont indésirables, mais souvent inévitables. Les principaux types de biais qui peuvent survenir dans le processus d'échantillonnage sont les suivants:

  • Biais de non-réponse : Lorsque des individus ou des ménages sélectionnés dans l'échantillon de l'enquête ne peuvent pas ou ne veulent pas terminer l'enquête, il y a un risque de biais qui peut résulter de cette non-réponse. Le biais de non-réponse se produit lorsque la valeur observée s'écarte du paramètre de population en raison de différences entre les répondants et les non-répondants.
  • Biais de réponse : Ce n'est pas l'opposé du biais de non-réponse, mais plutôt une tendance possible des répondants à donner des réponses inexactes ou mensongères pour diverses raisons.
  • Biais de sélection: Le biais de sélection se produit lorsque certaines unités ont une probabilité de sélection différente qui n'est pas prise en compte par le chercheur. Par exemple, certains ménages ont plusieurs numéros de téléphone, ce qui les rend plus susceptibles d'être sélectionnés dans une enquête téléphonique que les ménages avec un seul numéro de téléphone. Ce biais de sélection serait corrigé en appliquant un poids d'enquête égal à [1 / (nombre de numéros de téléphone)] à chaque ménage.
  • Biais d'auto-sélection : Un type de biais dans lequel les individus se choisissent volontairement dans un groupe, biaisant ainsi potentiellement la réponse de ce groupe.
  • Biais de participation : Biais qui résulte des caractéristiques de ceux qui choisissent de participer à une enquête ou à un sondage.
  • Biais de couverture: Un biais de couverture peut se produire lorsque les membres de la population n'apparaissent pas dans la base de sondage (sous-dénombrement). Un biais de couverture se produit lorsque la valeur observée s'écarte du paramètre de population en raison de différences entre les unités couvertes et non couvertes. Les enquêtes téléphoniques souffrent d'une source bien connue de biais de couverture car elles ne peuvent pas inclure les ménages sans téléphone.

Échantillonnage non probabiliste

De nombreuses enquêtes ne sont pas basées sur des échantillons probabilistes, mais plutôt sur la recherche d'une collection appropriée de répondants pour répondre à l'enquête. Voici quelques exemples courants d'échantillonnage non probabiliste:

  • Échantillons de jugement: un chercheur décide quels membres de la population inclure dans l'échantillon en fonction de son jugement. Le chercheur peut fournir une autre justification de la représentativité de l'échantillon. L'hypothèse sous-jacente est que l'enquêteur sélectionnera des unités qui sont caractéristiques de la population. Cette méthode peut être soumise aux préjugés et à la perception du chercheur.
  • Échantillons de boule de neige: Souvent utilisés lorsqu'une population cible est rare. Les membres de la population cible recrutent d'autres membres de la population pour l'enquête.
  • Échantillons de quota : l'échantillon est conçu pour inclure un nombre désigné de personnes ayant certaines caractéristiques spécifiées. Par exemple, 100 buveurs de café. Ce type d'échantillonnage est courant dans les enquêtes de marché non probabilistes.
  • Échantillons de commodité : L'échantillon est composé de toutes les personnes auxquelles il est le plus facile d'accéder pour répondre à l'enquête.

Dans les échantillons non probabilistes, la relation entre la population cible et l'échantillon d'enquête est incommensurable et le biais potentiel est inconnu. Les utilisateurs avertis d'échantillons d'enquêtes non probabilistes ont tendance à considérer l'enquête comme une condition expérimentale, plutôt qu'un outil de mesure de la population, et examinent les résultats pour des relations internes cohérentes.

Voir également

Les références

Lectures complémentaires

Le manuel de Groves et alia donne un aperçu de la méthodologie d'enquête, y compris la littérature récente sur l'élaboration de questionnaires (informée par la psychologie cognitive ):

Les autres ouvrages se concentrent sur la théorie statistique de l'échantillonnage d'enquête et nécessitent une certaine connaissance des statistiques de base, comme indiqué dans les manuels suivants:

Le livre élémentaire de Scheaffer et alia utilise des équations quadratiques de l'algèbre du lycée:

  • Scheaffer, Richard L., William Mendenhal et R. Lyman Ott. Échantillonnage d'enquêtes élémentaires , cinquième édition. Belmont: Duxbury Press, 1996.

Plus de statistiques mathématiques sont nécessaires pour Lohr, pour Särndal et alia, et pour Cochran (classique):

Les livres historiquement importants de Deming et Kish restent précieux pour les chercheurs en sciences sociales (en particulier sur le recensement américain et l' Institut de recherche sociale de l' Université du Michigan ):

Liens externes