Test de permutation - Permutation test

Un test de permutation (également appelé test de re-randomisation) est un test exact , un type de test de signification statistique dans lequel la distribution de la statistique de test sous l' hypothèse nulle est obtenue en calculant toutes les valeurs possibles de la statistique de test sous tous les réarrangements possibles de les points de données observés. Les tests de permutation sont donc une forme de rééchantillonnage . En d'autres termes, la méthode par laquelle les traitements sont attribués aux sujets dans un plan expérimental se reflète dans l'analyse de ce plan. Si les étiquettes sont échangeables sous l'hypothèse nulle, les tests résultants donnent des niveaux de signification exacts ; voir aussi échangeabilité . Des intervalles de confiance peuvent alors être dérivés des tests. La théorie a évolué à partir des travaux de Ronald Fisher et EJG Pitman dans les années 1930.

Les tests de permutation ne doivent pas être confondus avec les tests randomisés .

Pour illustrer l'idée de base d'un test de permutation, supposons que nous collectons des variables aléatoires et pour chaque individu de deux groupes et dont les moyennes d'échantillon sont et , et que nous voulons savoir si et proviennent de la même distribution. Soit et soit la taille de l'échantillon collecté dans chaque groupe. Le test de permutation est conçu pour déterminer si la différence observée entre les moyennes de l'échantillon est suffisamment grande pour rejeter, à un certain niveau de signification, l'hypothèse nulle H selon laquelle les données tirées proviennent de la même distribution que les données tirées de .

Le test se déroule comme suit. Dans un premier temps, la différence de moyenne entre les deux échantillons est calculée : c'est la valeur observée de la statistique de test, .

Ensuite, les observations des groupes et sont regroupées, et la différence des moyennes d'échantillon est calculée et enregistrée pour chaque manière possible de diviser les valeurs regroupées en deux groupes de taille et (c'est-à-dire pour chaque permutation des étiquettes de groupe A et B). L'ensemble de ces différences calculées est la distribution exacte des différences possibles (pour cet échantillon) sous l'hypothèse nulle que les étiquettes de groupe sont échangeables (c'est-à-dire qu'elles sont attribuées au hasard).

La valeur p unilatérale du test est calculée comme la proportion de permutations échantillonnées où la différence de moyenne était supérieure à . La valeur p bilatérale du test est calculée comme la proportion de permutations échantillonnées où la différence absolue était supérieure à .

Alternativement, si le seul objectif du test est de rejeter ou de ne pas rejeter l'hypothèse nulle, on pourrait trier les différences enregistrées, puis observer si elles sont contenues dans le pourcentage médian d'entre elles, pour un certain niveau de signification . Si ce n'est pas le cas, nous rejetons l'hypothèse de courbes de probabilité identiques au niveau de signification.

Relation avec les tests paramétriques

Les tests de permutation sont un sous-ensemble des statistiques non paramétriques . En supposant que nos données expérimentales proviennent de données mesurées à partir de deux groupes de traitement, la méthode génère simplement la distribution des différences moyennes sous l'hypothèse que les deux groupes ne sont pas distincts en termes de variable mesurée. À partir de là, on utilise ensuite la statistique observée ( ci-dessus) pour voir dans quelle mesure cette statistique est spéciale, c'est-à-dire la probabilité d'observer l'ampleur d'une telle valeur (ou plus) si les étiquettes de traitement avaient simplement été randomisées après traitement.

Contrairement aux tests de permutation, les distributions sous - jacentes de nombreuses populaires statistiques "classiques" des tests tels que le t -test , F -test , z -test et χ 2 essais , sont obtenus à partir des distributions de probabilités théoriques. Le test exact de Fisher est un exemple de test de permutation couramment utilisé pour évaluer l'association entre deux variables dichotomiques. Lorsque la taille des échantillons est très grande, le test du chi carré de Pearson donnera des résultats précis. Pour les petits échantillons, on ne peut pas supposer que la distribution de référence du Khi deux donne une description correcte de la distribution de probabilité de la statistique de test, et dans cette situation, l'utilisation du test exact de Fisher devient plus appropriée.

Les tests de permutation existent dans de nombreuses situations où les tests paramétriques ne le font pas (par exemple, lors de la dérivation d'un test optimal lorsque les pertes sont proportionnelles à la taille d'une erreur plutôt qu'à son carré). Tous les tests paramétriques simples et de nombreux tests paramétriques relativement complexes ont une version de test de permutation correspondante qui est définie en utilisant la même statistique de test que le test paramétrique, mais obtient la valeur p à partir de la distribution de permutation spécifique à l'échantillon de cette statistique, plutôt qu'à partir de la théorie distribution dérivée de l'hypothèse paramétrique. Par exemple, il est possible de cette manière de construire une permutation t -test , une permutation χ 2 tests d'association, une version de permutation de test de Aly pour comparer les écarts et ainsi de suite.

Les principaux inconvénients des tests de permutation sont qu'ils

  • Peut nécessiter des calculs intensifs et peut nécessiter un code « personnalisé » pour des statistiques difficiles à calculer. Cela doit être réécrit pour chaque cas.
  • Sont principalement utilisés pour fournir une valeur p. L'inversion du test pour obtenir des régions/intervalles de confiance nécessite encore plus de calculs.

Avantages

Des tests de permutation existent pour toute statistique de test, que sa distribution soit connue ou non. Ainsi, on est toujours libre de choisir la statistique qui discrimine le mieux entre hypothèse et alternative et qui minimise les pertes.

Les tests de permutation peuvent être utilisés pour analyser des conceptions déséquilibrées et pour combiner des tests dépendants sur des mélanges de données catégorielles, ordinales et métriques (Pesarin, 2001). Ils peuvent également être utilisés pour analyser des données qualitatives qui ont été quantifiées (c'est-à-dire converties en nombres). Les tests de permutation peuvent être idéaux pour analyser des données quantifiées qui ne satisfont pas aux hypothèses statistiques sous-jacentes aux tests paramétriques traditionnels (par exemple, les tests t, ANOVA).

Avant les années 1980, le fardeau de créer la distribution de référence était écrasant, sauf pour les ensembles de données avec de petites tailles d'échantillon.

Depuis les années 1980, la confluence d'ordinateurs rapides relativement peu coûteux et le développement de nouveaux algorithmes de chemin sophistiqués applicables dans des situations spéciales ont rendu l'application de méthodes de test de permutation pratique pour un large éventail de problèmes. Il a également initié l'ajout d'options de tests exacts dans les principaux progiciels statistiques et l'apparition de logiciels spécialisés pour effectuer une large gamme de tests exacts à une ou plusieurs variables et calculer des intervalles de confiance « exacts » basés sur des tests.

Limites

Une hypothèse importante derrière un test de permutation est que les observations sont échangeables sous l'hypothèse nulle. Une conséquence importante de cette hypothèse est que les tests de différence de localisation (comme un test t de permutation) nécessitent une variance égale sous l'hypothèse de normalité. À cet égard, le test t de permutation partage la même faiblesse que le test t de Student classique (le problème de Behrens-Fisher ). Une troisième alternative dans cette situation consiste à utiliser un test basé sur le bootstrap. Good (2005) explique la différence entre les tests de permutation et les tests de bootstrap de la manière suivante : « Les permutations testent les hypothèses concernant les distributions ; les bootstraps testent les hypothèses concernant les paramètres. En conséquence, le bootstrap implique des hypothèses moins strictes. Les tests d'amorçage ne sont pas exacts. Dans certains cas, un test de permutation basé sur une statistique correctement studentisée peut être asymptotiquement exact même lorsque l'hypothèse d'échangeabilité est violée.

Essais de Monte-Carlo

Un test de permutation asymptotiquement équivalent peut être créé lorsqu'il y a trop d'ordres possibles des données pour permettre une énumération complète d'une manière pratique. Cela se fait en générant la distribution de référence par échantillonnage de Monte Carlo , qui prend un petit échantillon aléatoire (par rapport au nombre total de permutations) des répliques possibles. La prise de conscience que cela pouvait être appliqué à n'importe quel test de permutation sur n'importe quel ensemble de données a été une percée importante dans le domaine des statistiques appliquées. Les premières références connues à cette approche sont Eden et Yates (1933) et Dwass (1957). Ce type de test de permutation est connu sous différentes appellations : test de permutation approximative , tests de permutation de Monte Carlo ou encore tests de permutation aléatoire .

Après des permutations aléatoires, il est possible d'obtenir un intervalle de confiance pour la valeur p basé sur la distribution binomiale. Par exemple, si après des permutations aléatoires, la valeur p est estimée être , alors un intervalle de confiance de 99 % pour le vrai (celui qui résulterait de l'essai de toutes les permutations possibles) est .

D'autre part, le but de l'estimation de la valeur p est le plus souvent de décider si , où est le seuil auquel l'hypothèse nulle sera rejetée (généralement ). Dans l'exemple ci-dessus, l'intervalle de confiance nous dit seulement qu'il y a environ 50 % de chances que la valeur p soit inférieure à 0,05, c'est-à-dire qu'il n'est pas du tout clair si l'hypothèse nulle doit être rejetée à un niveau .

S'il est seulement important de savoir si pour un , il est logique de continuer à simuler jusqu'à ce que l'énoncé puisse être établi comme étant vrai ou faux avec une très faible probabilité d'erreur. Compte tenu d'une borne sur la probabilité d'erreur admissible (la probabilité de trouver cela en fait ou vice versa), la question du nombre de permutations à générer peut être considérée comme la question de savoir quand arrêter de générer des permutations, sur la base des résultats de la simulations jusqu'à présent, afin de garantir que la conclusion (qui est soit ou ) est correcte avec une probabilité au moins aussi grande que . ( sera typiquement choisi pour être extrêmement petit, par exemple 1/1000.) Des règles d'arrêt pour y parvenir ont été développées et peuvent être incorporées avec un coût de calcul supplémentaire minimal. En fait, en fonction de la vraie valeur p sous-jacente, il sera souvent constaté que le nombre de simulations requises est remarquablement petit (par exemple aussi bas que 5 et souvent pas plus de 100) avant qu'une décision puisse être prise avec une quasi-certitude.

Voir également

Littérature

Références originales :

  • Fisher, RA (1935) La conception des expériences , New York : Hafner
  • Pitman, EJG (1937) "Tests de signification qui peuvent être appliqués à des échantillons de toute population", Supplément de la Royal Statistical Society , 4 : 119-130 et 225-32 (parties I et II). JSTOR  2984124 JSTOR  2983647
  • Pitman, EJG (1938). "Tests de signification qui peuvent être appliqués à des échantillons de toute population. Partie III. Le test d'analyse de la variance". Biometrika . 29 (3-4): 322-335. doi : 10.1093/biomet/29.3-4.322 .

Références modernes :

Méthodes de calcul :

Recherches en cours sur les tests de permutation

Les références

  1. ^ Onghena, Patrick (2017-10-30), Berger, Vance W. (éd.), "Tests de randomisation ou tests de permutation? Une clarification historique et terminologique" , Randomisation, masquage et dissimulation d'allocation (1 éd.), Boca Raton : Taylor & Francis, un titre CRC, faisant partie de l'empreinte Taylor & Francis, membre du Taylor & Francis Group, la division académique de T&F Informa plc, 2018. : Chapman and Hall/CRC, pp. 209-228, doi : 10.1201/9781315305110-14 , ISBN 978-1-315-30511-0, récupéré le 2021-10-08Maintenance CS1 : emplacement ( lien )
  2. ^ "Articles invités" (PDF) . Journal des méthodes statistiques appliquées modernes . 1 (2) : 202-522. Automne 2011. Archivé de l'original (PDF) le 5 mai 2003.
  3. ^ Collingridge, Dave S. (11 septembre 2012). « Une amorce sur l'analyse de données quantifiées et les tests de permutation ». Journal de recherche sur les méthodes mixtes . 7 (1) : 81-97. doi : 10.1177/1558689812454457 . S2CID  124618343 .
  4. ^ Chung, EY; Romano, JP (2013). "Tests de permutation exacts et asymptotiquement robustes" . Les Annales de la statistique . 41 (2) : 487-507. arXiv : 1304.5939 . doi : 10.1214/13-AOS1090 .
  5. ^ Eden, T; Yates, F (1933). "Sur la validité du test z de Fisher lorsqu'il est appliqué à un exemple réel de données non normales. (Avec cinq chiffres-textes.)" . Le Journal des sciences agricoles . 23 (1) : 6-17. doi : 10.1017/S0021859600052862 . Récupéré le 3 juin 2021 .
  6. ^ Dwass, Meyer (1957). « Tests de randomisation modifiés pour les hypothèses non paramétriques » . Annales de statistiques mathématiques . 28 (1) : 181-187. doi : 10.1214/aoms/1177707045 . JSTOR  2237031 .
  7. ^ Thomas E. Nichols , Andrew P. Holmes (2001). « Tests de permutation non paramétriques pour la neuroimagerie fonctionnelle : une amorce avec des exemples » (PDF) . Cartographie du cerveau humain . 15 (1) : 1–25. doi : 10.1002/hbm.1058 . hdl : 2027,42/35194 . PMC  6871862 . PMID  11747097 .
  8. ^ Gandy, Axel (2009). "Implémentation séquentielle de tests de Monte Carlo avec risque de rééchantillonnage uniformément borné". Journal de l'Association statistique américaine . 104 (488) : 1504-1511. arXiv : math/0612488 . doi : 10.1198/jasa.2009.tm08368 . S2CID  15935787 .