Taux d'erreur par famille - Family-wise error rate

En statistiques , le taux d'erreur par famille ( FWER ) est la probabilité de faire une ou plusieurs fausses découvertes, ou erreurs de type I lors de l'exécution de plusieurs tests d'hypothèses .

Taux d'erreur au niveau familial et expérimental

Tukey (1953) a développé le concept d'un taux d'erreur familial comme la probabilité de commettre une erreur de type I parmi un groupe spécifié, ou « famille », de tests. Ryan (1959) a proposé le concept connexe d'un taux d'erreur expérimentale , qui est la probabilité de commettre une erreur de type I dans une expérience donnée. Par conséquent, un taux d'erreur au niveau de l'expérience est un taux d'erreur au niveau de la famille pour tous les tests effectués dans le cadre d'une expérience.

Comme Ryan (1959, note de bas de page 3) l'a expliqué, une expérience peut contenir deux ou plusieurs familles de comparaisons multiples, dont chacune se rapporte à une inférence statistique particulière et dont chacune a son propre taux d'erreur familial distinct. Par conséquent, les taux d'erreur par famille sont généralement basés sur des collections théoriquement informatives de comparaisons multiples. En revanche, un taux d'erreur expérimentale peut être basé sur une collection fortuite de comparaisons qui se réfèrent à un large éventail d'inférences distinctes. Par conséquent, certains ont fait valoir qu'il peut ne pas être utile de contrôler le taux d'erreur expérimentale. En effet, Tukey était contre l'idée de taux d'erreur expérimentalement (Tukey, 1956, communication personnelle, dans Ryan, 1962, p. 302). Plus récemment, Rubin (2021) a critiqué la prise en compte automatique des taux d'erreur expérimentalement, affirmant que « dans de nombreux cas, l'hypothèse conjointe de l'étude [expérimentale] n'a aucun rapport avec les questions de recherche spécifiques des chercheurs, car ses hypothèses constitutives se réfèrent à des comparaisons et des variables qui n'ont aucune base théorique ou pratique pour une considération commune.

Fond

Dans le cadre statistique, il existe plusieurs définitions du terme « famille » :

  • Hochberg et Tamhane (1987) ont défini la « famille » comme « toute collection d'inférences pour laquelle il est utile de prendre en compte une mesure combinée d'erreur ».
  • Selon Cox (1982), un ensemble d'inférences doit être considéré comme une famille :
  1. Pour prendre en compte l'effet de sélection dû au dragage de données
  2. Assurer l'exactitude simultanée d'un ensemble d'inférences afin de garantir une décision globale correcte

Pour résumer, une famille pourrait être mieux définie par l' inférence sélective potentielle à laquelle on est confronté : une famille est le plus petit ensemble d'éléments d'inférence dans une analyse, interchangeables quant à leur signification pour l'objectif de la recherche, à partir de laquelle la sélection des résultats , une présentation ou une mise en lumière pourra être faite ( Yoav Benjamini ).

Classification des tests d'hypothèses multiples

Le tableau suivant définit les résultats possibles lors du test de plusieurs hypothèses nulles. Supposons que nous ayons un nombre m d'hypothèses nulles, noté : H 1H 2 , ...,  H m . A l'aide d'un test statistique , nous rejetons l'hypothèse nulle si le test est déclaré significatif. Nous ne rejetons pas l'hypothèse nulle si le test est non significatif. La somme de chaque type de résultat sur tous les H i   donne les variables aléatoires suivantes :

L'hypothèse nulle est vraie (H 0 ) L'hypothèse alternative est vraie (H A ) Le total
Le test est déclaré significatif V S R
Le test est déclaré non significatif U T
Le total m

Dans m tests d'hypothèses qui sont de vraies hypothèses nulles, R est une variable aléatoire observable et S , T , U et V sont des variables aléatoires non observables .

Définition

Le FWER est la probabilité de commettre au moins une erreur de type I dans la famille,

ou équivalent,

Ainsi, en assurant , la probabilité de commettre une ou plusieurs erreurs de type I dans la famille est contrôlée au niveau .

Une procédure contrôle le FWER au sens faible si le contrôle FWER au niveau n'est garanti que lorsque toutes les hypothèses nulles sont vraies (c'est-à-dire quand , c'est-à -dire que "l'hypothèse nulle globale" est vraie).

Une procédure contrôle le FWER au sens fort si le contrôle FWER au niveau est garanti pour toute configuration d'hypothèses nulles vraies et non vraies (que l'hypothèse nulle globale soit vraie ou non).

Procédures de contrôle

Certaines solutions classiques qui assurent un contrôle FWER de niveau élevé, et certaines solutions plus récentes existent.

La procédure Bonferroni

  • Désigner par la valeur p pour les tests
  • rejeter si

La procédure idák

  • Tester chaque hypothèse au niveau est la procédure de test multiple de Sidak.
  • Cette procédure est plus puissante que Bonferroni mais le gain est faible.
  • Cette procédure peut échouer à contrôler le FWER lorsque les tests sont dépendants négativement.

La procédure de Tukey

  • La procédure de Tukey n'est applicable que pour les comparaisons par paires .
  • Il suppose l'indépendance des observations testées, ainsi qu'une variation égale entre les observations ( homoscédasticité ).
  • La procédure calcule pour chaque paire la statistique de plage studentisée : où est la plus grande des deux moyennes comparées, est la plus petite et est l'erreur standard des données en question.
  • Le test de Tukey est essentiellement un test t de Student , sauf qu'il corrige le taux d'erreur familial .

La procédure de réduction de Holm (1979)

  • Commencez par ordonner les valeurs p (de la plus faible à la plus élevée) et laissez les hypothèses associées être
  • Soit l'indice minimal tel que
  • Rejeter les hypothèses nulles . Si alors aucune des hypothèses n'est rejetée.

Cette procédure est uniformément plus puissante que la procédure Bonferroni. La raison pour laquelle cette procédure contrôle le taux d'erreur par famille pour toutes les m hypothèses au niveau α au sens fort est qu'il s'agit d'une procédure de test fermée . Ainsi, chaque intersection est testée à l'aide du simple test de Bonferroni.

La procédure de step-up de Hochberg

La procédure de step-up de Hochberg (1988) est réalisée selon les étapes suivantes :

  • Commencez par ordonner les valeurs p (de la plus faible à la plus élevée) et laissez les hypothèses associées être
  • Pour un donné , soit le plus grand tel que
  • Rejeter les hypothèses nulles

La procédure de Hochberg est plus puissante que celle de Holms. Néanmoins, alors que celle de Holm est une procédure de test fermée (et donc, comme Bonferroni, n'a aucune restriction sur la distribution conjointe des statistiques de test), celle de Hochberg est basée sur le test de Simes, elle n'est donc valable que sous dépendance non négative.

La correction de Dunnett

Charles Dunnett (1955, 1966) a décrit un autre ajustement de l'erreur alpha lorsque k groupes sont comparés au même groupe témoin. Maintenant connue sous le nom de test de Dunnett, cette méthode est moins conservatrice que l'ajustement de Bonferroni.

La méthode de Scheffé

Procédures de rééchantillonnage

Les procédures de Bonferroni et Holm contrôlent le FWER sous n'importe quelle structure de dépendance des valeurs p (ou de manière équivalente les statistiques de test individuel). Essentiellement, ceci est réalisé en s'adaptant à une structure de dépendance du "pire des cas" (qui est proche de l'indépendance pour la plupart des objectifs pratiques). Mais une telle approche est conservatrice si la dépendance est réellement positive. Pour donner un exemple extrême, sous dépendance positive parfaite, il n'y a effectivement qu'un seul test et donc, le FWER est dégonflé.

La prise en compte de la structure de dépendance des valeurs p (ou des statistiques de test individuel) produit des procédures plus puissantes. Ceci peut être réalisé en appliquant des méthodes de rééchantillonnage, telles que les méthodes d'amorçage et de permutation. La procédure de Westfall et Young (1993) requiert une certaine condition qui ne tient pas toujours en pratique (à savoir, la pivotalité du sous-ensemble). Les procédures de Romano et Wolf (2005a,b) dispensent de cette condition et sont donc plus généralement valables.

Procédure de valeur p moyenne harmonique

La procédure de valeur p moyenne harmonique (HMP) fournit un test à plusieurs niveaux qui améliore la puissance de la correction de Bonferroni en évaluant la significativité des groupes d'hypothèses tout en contrôlant le taux d'erreur familial au sens fort. L'importance de tout sous - ensemble des tests est évaluée en calculant le HMP pour le sous-ensemble,

où sont les poids dont la somme est égale à un (c'est-à-dire ). Une procédure approximative qui contrôle le taux d'erreur au niveau de la famille au sens fort rejette approximativement l'hypothèse nulle selon laquelle aucune des valeurs p du sous - ensemble n'est significative lorsque (où ). Cette approximation est raisonnable pour petit (par exemple ) et devient arbitrairement bonne à mesure qu'elle s'approche de zéro. Un test asymptotiquement exact est également disponible (voir article principal ).

Approches alternatives

Le contrôle FWER exerce un contrôle plus strict sur les fausses découvertes par rapport aux procédures de taux de fausses découvertes (FDR). Le contrôle FWER limite la probabilité d' au moins une fausse découverte, tandis que le contrôle FDR limite (au sens large) la proportion attendue de fausses découvertes. Ainsi, les procédures FDR ont une plus grande puissance au prix d'un taux accru d' erreurs de type I , c'est-à-dire en rejetant les hypothèses nulles qui sont réellement vraies.

En revanche, le contrôle FWER est moins strict que le contrôle du taux d'erreur par famille, ce qui limite le nombre d'erreurs attendu par famille. Étant donné que le contrôle FWER concerne au moins une fausse découverte, contrairement au contrôle du taux d'erreur par famille, il ne traite pas plusieurs fausses découvertes simultanées comme pire qu'une seule fausse découverte. La correction de Bonferroni est souvent considérée comme un simple contrôle du FWER, mais en fait contrôle également le taux d'erreur par famille.

Les références

Liens externes