La validité de construction - Construct validity

La validité de construit est l'accumulation de preuves pour étayer l'interprétation de ce que reflète une mesure. La théorie moderne de la validité définit la validité de construit comme la préoccupation primordiale de la recherche sur la validité, englobant tous les autres types de preuves de validité telles que la validité de contenu et la validité de critère .

La validité de construit est la pertinence des inférences faites sur la base d'observations ou de mesures (souvent les résultats des tests), en particulier si un test peut raisonnablement être considéré comme reflétant le construit prévu . Les construits sont des abstractions créées délibérément par les chercheurs afin de conceptualiser la variable latente , qui est corrélée aux scores sur une mesure donnée (bien qu'elle ne soit pas directement observable). La validité de construit examine la question : la mesure se comporte-t-elle comme la théorie dit qu'une mesure de ce construit devrait se comporter ?

La validité de construit est essentielle à la validité globale perçue du test. La validité de construit est particulièrement importante dans les sciences sociales , la psychologie , la psychométrie et les études linguistiques.

Des psychologues tels que Samuel Messick (1998) ont préconisé une vision unifiée de la validité de construit « ... .." Alors que les points de vue de Messick sont popularisés dans la mesure de l'éducation et trouvent leur origine dans une carrière autour de l'explication de la validité dans le contexte de l'industrie des tests, une définition plus conforme à la recherche psychologique fondamentale, soutenue par des études empiriques basées sur des données qui mettent l'accent sur le raisonnement statistique et causal a été donnée par (Borsboom et al. , 2004)

La clé de la validité de construction sont les idées théoriques qui sous-tendent le trait considéré, c'est-à-dire les concepts qui organisent la façon dont les aspects de la personnalité , de l' intelligence , etc. sont considérés. Paul Meehl déclare que « la meilleure construction est celle autour de laquelle nous pouvons construire le plus grand nombre d'inférences, de la manière la plus directe ».

La purification d'échelle, c'est-à-dire « le processus d'élimination des items des échelles multi-items » (Wieland et al., 2017) peut influencer la validité du construit. Un cadre présenté par Wieland et al. (2017) souligne que les critères statistiques et de jugement doivent être pris en considération lors de la prise de décisions de purification d'échelle.

Histoire

Tout au long des années 40, les scientifiques ont essayé de trouver des moyens de valider les expériences avant de les publier. Le résultat fut une pléthore de différentes validités ( validité intrinsèque , validité apparente , validité logique , validité empirique , etc.). Cela rendait difficile de dire lesquels étaient en fait les mêmes et lesquels n'étaient pas du tout utiles. Jusqu'au milieu des années 1950, il existait très peu de méthodes universellement acceptées pour valider les expériences psychologiques. La principale raison en était que personne n'avait déterminé exactement quelles qualités des expériences devraient être examinées avant de les publier. Entre 1950 et 1954, le Comité de l'APA sur les tests psychologiques s'est réuni et a discuté des questions entourant la validation des expériences psychologiques.

À cette époque, le terme validité de construit a été inventé pour la première fois par Paul Meehl et Lee Cronbach dans leur article fondateur « Construct Validity In Psychological Tests ». Ils ont noté l'idée que la validité de construit n'était pas nouvelle à ce stade ; il s'agissait plutôt d'une combinaison de nombreux types de validité différents traitant de concepts théoriques. Ils ont proposé les trois étapes suivantes pour évaluer la validité de construit :

articuler un ensemble de concepts théoriques et leurs interrelations
développer des moyens de mesurer les construits hypothétiques proposés par la théorie
tester empiriquement les relations hypothétiques

De nombreux psychologues ont noté qu'un rôle important de la validation de construit en psychométrie était qu'elle mettait davantage l'accent sur la théorie par opposition à la validation. Le problème central de la validation était qu'un test pouvait être validé, mais cela ne montrait pas nécessairement qu'il mesurait la construction théorique qu'il était censé mesurer. La validité de construit a trois aspects ou composantes : la composante substantielle, la composante structurelle et la composante externe. Ils sont étroitement liés à trois étapes du processus de construction du test : constitution du pool d'items, analyse et sélection de la structure interne du pool d'items, et corrélation des scores des tests avec des critères et d'autres variables.

Dans les années 1970, il y avait un débat croissant entre les théoriciens qui ont commencé à voir la validité de construit comme le modèle dominant poussant vers une théorie de la validité plus unifiée, et ceux qui ont continué à travailler à partir de cadres de validité multiples. De nombreux psychologues et chercheurs l' éducation a vu « validités prédictive, en même temps, et de contenu essentiellement ad hoc , la validité de la construction était toute la validité d'un point de vue scientifique » Dans la version 1974 Les normes pour l' éducation et Tests psychologiques l'interdépendance des les trois aspects différents de la validité ont été reconnus : « Ces aspects de la validité peuvent être discutés indépendamment, mais uniquement pour des raisons de commodité. Ils sont interdépendants d'un point de vue opérationnel et logique.

En 1989, Messick a présenté une nouvelle conceptualisation de la validité de construit en tant que concept unifié et à multiples facettes. Dans ce cadre, toutes les formes de validité sont liées et dépendent de la qualité du construit. Il a noté qu'une théorie unifiée n'était pas sa propre idée, mais plutôt l'aboutissement de débats et de discussions au sein de la communauté scientifique au cours des décennies précédentes. Il y a six aspects de la validité de construit dans la théorie unifiée de la validité de construit de Messick :

Conséquent – Quels sont les risques potentiels si les scores sont invalides ou mal interprétés ? Le test est-il encore valable compte tenu des risques ?
Contenu – Les éléments de test semblent-ils mesurer le construit d'intérêt ?
Substantiel – Le fondement théorique qui sous-tend le concept d'intérêt est-il solide ?
Structurel – Les interrelations des dimensions mesurées par le test sont-elles en corrélation avec le construit d'intérêt et les résultats du test ?
Externe – Le test a-t-il des qualités convergentes, discriminantes et prédictives ?
Généralisabilité – Le test se généralise-t-il à différents groupes, paramètres et tâches ?

La manière dont la validité de construit doit être correctement considérée est encore un sujet de débat pour les théoriciens de la validité. Le cœur de la différence réside dans une différence épistémologique entre les théoriciens positivistes et postpositivistes .

Évaluation

L'évaluation de la validité du construit exige que les corrélations de la mesure soient examinées par rapport aux variables connues pour être liées au construit (prétendument mesurées par l'instrument évalué ou pour lesquelles il existe des raisons théoriques de s'attendre à ce qu'il soit lié). Ceci est cohérent avec la matrice multitraits-multiméthodes (MTMM) d'examen de la validité de construit décrite dans l'article phare de Campbell et Fiske (1959). Il existe d'autres méthodes pour évaluer la validité de construit en plus du MTMM. Il peut être évalué par différentes formes d' analyse factorielle , de modélisation par équation structurelle (SEM) et d'autres évaluations statistiques. Il est important de noter qu'une seule étude ne prouve pas la validité de construit. Il s'agit plutôt d'un processus continu d'évaluation, de réévaluation, de raffinement et de développement. Les corrélations qui correspondent au modèle attendu apportent des preuves de la validité de construit. La validité de construit est un jugement basé sur l'accumulation de corrélations provenant de nombreuses études utilisant l'instrument évalué.

La plupart des chercheurs tentent de tester la validité de construit avant la recherche principale. Pour ce faire , des études pilotes peuvent être utilisées. Les études pilotes sont des études préliminaires à petite échelle visant à tester la faisabilité d'un essai à grande échelle. Ces études pilotes établissent la force de leurs recherches et leur permettent d'apporter les ajustements nécessaires. Une autre méthode est la technique des groupes connus, qui consiste à administrer l'instrument de mesure à des groupes susceptibles de différer en raison de caractéristiques connues. Les tests de relations hypothétiques impliquent une analyse logique basée sur la théorie ou des recherches antérieures. Les études d'intervention sont une autre méthode d'évaluation de la validité de construit. Les études d'intervention où un groupe avec de faibles scores dans le construit est testé, enseigné le construit, puis re-mesuré, peuvent démontrer la validité du construit d'un test. S'il existe une différence significative entre le pré-test et le post-test, qui sont analysés par des tests statistiques, cela peut alors démontrer une bonne validité de construit.

Validité convergente et discriminante

La validité convergente et discriminante sont les deux sous-types de validité qui composent la validité de construit. La validité convergente fait référence au degré auquel deux mesures de construits qui devraient théoriquement être liées, sont en fait liées. En revanche, la validité discriminante teste si des concepts ou des mesures qui sont supposés être sans rapport le sont en fait sans rapport. Prenez, par exemple, une construction de bonheur général. Si une mesure du bonheur général avait une validité convergente, alors des constructions similaires au bonheur (satisfaction, contentement, gaieté, etc.) devraient se rapporter positivement à la mesure du bonheur général. Si cette mesure a une validité discriminante, alors les construits qui ne sont pas censés être liés positivement au bonheur général (tristesse, dépression, désespoir, etc.) ne devraient pas être liés à la mesure du bonheur général. Les mesures peuvent avoir l'un des sous-types de validité de construit et pas l'autre. En utilisant l'exemple du bonheur général, un chercheur pourrait créer un inventaire où il existe une corrélation positive très élevée entre le bonheur général et le contentement, mais s'il existe également une corrélation positive significative entre le bonheur et la dépression, alors la validité de construit de la mesure est remise en question. . Le test a une validité convergente mais pas une validité discriminante.

Réseau nomologique

Lee Cronbach et Paul Meehl (1955) ont proposé que le développement d'un réseau nomologique était essentiel à la mesure de la validité de construit d'un test. Un réseau nomologique définit une construction en illustrant sa relation avec d'autres constructions et comportements. C'est une représentation des concepts (constructions) d'intérêt dans une étude, de leurs manifestations observables et de l'interrelation entre eux. Il examine si les relations entre des construits similaires sont prises en compte avec les relations entre les mesures observées des construits. Une observation approfondie des relations entre les constructions peut générer de nouvelles constructions. Par exemple, l' intelligence et la mémoire de travail sont considérées comme des constructions étroitement liées. Grâce à l'observation de leurs composants sous-jacents, les psychologues ont développé de nouvelles constructions théoriques telles que : l'attention contrôlée et la charge à court terme. La création d'un réseau nomologique peut également rendre l'observation et la mesure des constructions existantes plus efficaces en localisant les erreurs. Les chercheurs ont découvert que l'étude des bosses sur le crâne humain ( phrénologie ) n'est pas un indicateur de l'intelligence, mais le volume du cerveau l'est. En retirant la théorie de la phrénologie du réseau nomologique de l'intelligence et en ajoutant la théorie de l'évolution de la masse cérébrale, les constructions de l'intelligence sont rendues plus efficaces et plus puissantes. Le tissage de tous ces concepts interdépendants et de leurs traits observables crée un « filet » qui soutient leur concept théorique. Par exemple, dans le réseau nomologique de la réussite scolaire, nous nous attendrions à ce que les traits observables de la réussite scolaire (c. . S'ils ne le font pas, alors il y a un problème avec la mesure (de la réussite scolaire ou de l'étude), ou avec la prétendue théorie de la réussite. S'ils sont des indicateurs les uns des autres, alors le réseau nomologique, et donc la théorie construite, de la réussite scolaire est renforcé. Bien que le réseau nomologique ait proposé une théorie sur la façon de renforcer les construits, il ne nous dit pas comment évaluer la validité du construit dans une étude.

Matrice multitrait-multiméthode

La matrice multitraits-multiméthodes (MTMM) est une approche d'examen de la validité de construit développée par Campbell et Fiske (1959). Ce modèle examine la convergence (preuve que différentes méthodes de mesure d'un construit donnent des résultats similaires) et la discriminabilité (capacité à différencier le construit d'autres construits apparentés). Il mesure six traits : l'évaluation de la validité convergente, l'évaluation de la validité discriminante (divergente), les unités trait-méthode, les multitraits-multiméthodes, les méthodologies vraiment différentes et les caractéristiques des traits. Cette conception permet aux enquêteurs de tester : « la convergence entre différentes mesures... de la même « chose »... et la divergence entre les mesures... de « choses » liées mais conceptuellement distinctes.

Menaces pour construire la validité

La validité apparente de la construction peut être trompeuse en raison d'une série de problèmes dans la formulation d'hypothèses et la conception expérimentale.

Deviner l'hypothèse : Si le participant connaît, ou devine, le résultat final souhaité, les actions du participant peuvent changer. Un exemple est l' effet Hawthorne : dans une étude d'ergonomie industrielle de 1925 menée à l'usine Hawthorne Works à l'extérieur de Chicago, des expérimentateurs ont observé qu'abaisser et augmenter les niveaux de lumière ambiante améliorait la productivité des travailleurs. Ils ont finalement déterminé la base de ce résultat paradoxal : les travailleurs qui étaient conscients d'être observés ont travaillé plus dur quel que soit le changement dans l'environnement.
Biais dans la conception expérimentale (intentionnel ou non intentionnel). Un exemple de ceci est fourni dans le livre de 1981 de Stephen Jay Gould , " The Mismeasure of Man ". Parmi les questions utilisées à l'époque de la Première Guerre mondiale dans la batterie utilisée pour mesurer l'intelligence figurait : « Dans quelle ville les Dodgers jouent-ils ? (ils étaient alors basés à Brooklyn). Les immigrants récents aux États-Unis en provenance d'Europe de l'Est qui ne connaissent pas le sport du baseball se sont trompés de réponse, et cela a été utilisé pour déduire que les Européens de l'Est avaient une intelligence inférieure. La question ne mesurait pas l'intelligence : elle mesurait seulement combien de temps on avait vécu aux États-Unis et s'était habitué à un passe-temps populaire.
Les attentes des chercheurs peuvent être communiquées involontairement aux participants de manière non verbale, provoquant l'effet souhaité. Pour contrôler cette possibilité, des conceptions expérimentales en double aveugle doivent être utilisées dans la mesure du possible. C'est-à-dire que l'évaluateur d'un participant particulier ne devrait pas savoir quelle intervention a été effectuée sur ce participant particulier, ou devrait être indépendant de l'expérimentateur.
Définir le résultat prévu de manière trop étroite . Par exemple, utiliser uniquement la satisfaction au travail pour mesurer le bonheur exclura les informations pertinentes provenant de l'extérieur du lieu de travail.
Variables de confusion (covariables) : La cause première des effets observés peut être due à des variables qui n'ont pas été prises en compte ou mesurées.

Une exploration approfondie des menaces à la validité de construit est présentée dans Trochim.

Languages

In other projects

La validité de construction - Construct validity

Contenu

Histoire

Évaluation

Validité convergente et discriminante

Réseau nomologique

Matrice multitrait-multiméthode

Menaces pour construire la validité

Voir également

Les références

Liens externes