Hypothèse nulle - Null hypothesis

En statistique inférentielle , l' hypothèse nulle (souvent notée H 0 ) est une hypothèse par défaut selon laquelle une quantité à mesurer est nulle (nulle). Typiquement, la quantité à mesurer est la différence entre deux situations, par exemple pour essayer de déterminer s'il existe une preuve positive qu'un effet s'est produit ou que les échantillons proviennent de lots différents.

L'hypothèse nulle indique effectivement qu'une quantité (d'intérêt) est supérieure ou égale à zéro et inférieure ou égale à zéro. Si l'une ou l'autre des exigences peut être positivement renversée, l'hypothèse nulle est « exclue du domaine des possibilités ».

L'hypothèse nulle est généralement supposée rester possiblement vraie. Des analyses multiples peuvent être effectuées pour montrer comment l'hypothèse doit être rejetée ou exclue, par exemple en ayant un niveau de confiance élevé, démontrant ainsi une différence statistiquement significative. Ceci est démontré en montrant que zéro est en dehors de l'intervalle de confiance spécifié de la mesure de chaque côté, généralement dans les nombres réels . Le fait de ne pas exclure l'hypothèse nulle (avec une quelconque confiance) ne confirme ni ne soutient logiquement l'hypothèse nulle (impuvable). (Lorsqu'il est prouvé que quelque chose est, par exemple, plus grand que x , cela n'implique pas nécessairement qu'il est plausible qu'il soit inférieur ou égal à x ; il peut plutôt s'agir d'une mesure de mauvaise qualité avec une faible précision. Confirmer l'hypothèse nulle à double sens serait Cela revient à prouver positivement qu'il est supérieur ou égal à 0 et à prouver positivement qu'il est inférieur ou égal à 0 ; c'est quelque chose pour lequel une précision infinie est nécessaire ainsi qu'un effet exactement nul, dont aucun n'est normalement réaliste. De plus, les mesures ne seront jamais indiquent une probabilité non nulle d'exactement une différence nulle.) Ainsi, l'échec d'une exclusion d'une hypothèse nulle équivaut à un « ne sait pas » au niveau de confiance spécifié ; cela n'implique pas immédiatement null d'une manière ou d'une autre, car les données peuvent déjà montrer une indication (moins forte) pour un non-null. Le niveau de confiance utilisé ne correspond absolument pas à la probabilité de nullité à défaut d'exclusion ; en fait, dans ce cas, un niveau de confiance utilisé élevé élargit la plage encore plausible.

Une hypothèse non nulle peut avoir les significations suivantes, selon l'auteur a) une valeur autre que zéro est utilisée, b) une marge autre que zéro est utilisée et c) l'hypothèse "alternative".

Tester (exclure ou ne pas exclure) l' hypothèse nulle fournit la preuve qu'il existe (ou non) des motifs statistiquement suffisants pour croire qu'il existe une relation entre deux phénomènes (par exemple, qu'un traitement potentiel a un effet non nul, dans les deux cas) . Le test de l'hypothèse nulle est une tâche centrale dans le test d'hypothèse statistique dans la pratique scientifique moderne. Il existe des critères précis pour exclure ou non une hypothèse nulle à un certain niveau de confiance. Le niveau de confiance devrait indiquer la probabilité que des données beaucoup plus nombreuses et de meilleure qualité soient toujours en mesure d'exclure l'hypothèse nulle du même côté.

Le concept d'hypothèse nulle est utilisé différemment dans deux approches de l'inférence statistique. Dans l'approche des tests de signification de Ronald Fisher , une hypothèse nulle est rejetée si les données observées est significativement peu susceptibles d'avoir lieu si l'hypothèse nulle était vraie. Dans ce cas, l'hypothèse nulle est rejetée et une hypothèse alternative est acceptée à sa place. Si les données sont cohérentes avec l'hypothèse nulle statistiquement possiblement vraie, alors l'hypothèse nulle n'est pas rejetée. Dans aucun des cas, l'hypothèse nulle ou son alternative n'est prouvée ; avec des données meilleures ou plus nombreuses, le null peut toujours être rejeté. Ceci est analogue au principe juridique de la présomption d'innocence , dans lequel un suspect ou un accusé est présumé innocent (nulle n'est pas rejeté) jusqu'à ce que sa culpabilité soit prouvée (nulle est rejetée) au-delà de tout doute raisonnable (à un degré statistiquement significatif).

Dans l' approche de test d'hypothèse de Jerzy Neyman et Egon Pearson , une hypothèse nulle est opposée à une hypothèse alternative , et les deux hypothèses sont distinguées sur la base de données, avec certains taux d'erreur. Il est utilisé dans la formulation des réponses dans la recherche.

L'inférence statistique peut être effectuée sans hypothèse nulle, en spécifiant un modèle statistique correspondant à chaque hypothèse candidate, et en utilisant des techniques de sélection de modèle pour choisir le modèle le plus approprié. (La plupart des techniques de sélection commun sont basés soit sur critère d'information d' Akaike ou facteur de Bayes ).

Principe

Le test d'hypothèse nécessite la construction d'un modèle statistique de ce à quoi ressembleraient les données si seuls le hasard ou des processus aléatoires étaient responsables des résultats. L'hypothèse selon laquelle le hasard seul est responsable des résultats est appelée hypothèse nulle . Le modèle du résultat du processus aléatoire est appelé la distribution sous l'hypothèse nulle . Les résultats obtenus sont comparés à la distribution sous l'hypothèse nulle, et la probabilité de trouver les résultats obtenus est ainsi déterminée.

Le test d'hypothèse fonctionne en collectant des données et en mesurant la probabilité d'un ensemble particulier de données (en supposant que l'hypothèse nulle est vraie), lorsque l'étude porte sur un échantillon représentatif sélectionné au hasard. L'hypothèse nulle suppose qu'il n'y a aucune relation entre les variables de la population à partir de laquelle l' échantillon est sélectionné.

Si l'ensemble de données d'un échantillon représentatif sélectionné au hasard est très improbable par rapport à l'hypothèse nulle (définie comme faisant partie d'une classe d'ensembles de données qui ne seront que rarement observées), l'expérimentateur rejette l'hypothèse nulle, la concluant (probablement ) c'est faux. Cette classe d'ensembles de données est généralement spécifiée via une statistique de test , qui est conçue pour mesurer l'étendue de l'écart apparent par rapport à l'hypothèse nulle. La procédure fonctionne en évaluant si l'écart observé, mesuré par la statistique de test, est supérieur à une valeur définie, de sorte que la probabilité d'occurrence d'une valeur plus extrême est faible sous l'hypothèse nulle (généralement dans moins de 5 % ou 1 % d'ensembles de données similaires dans lesquels l'hypothèse nulle est vraie).

Si les données ne contredisent pas l'hypothèse nulle, alors seule une conclusion faible peut être tirée : à savoir que l'ensemble de données observé fournit des preuves insuffisantes contre l'hypothèse nulle. Dans ce cas, parce que l'hypothèse nulle pourrait être vraie ou fausse, dans certains contextes, cela est interprété comme signifiant que les données fournissent des preuves insuffisantes pour tirer une conclusion, tandis que dans d'autres contextes, cela est interprété comme signifiant qu'il n'y a pas de preuves suffisantes pour soutenir le passage d'un régime actuellement utile à un autre. Néanmoins, si à ce stade l'effet semble probable et/ou suffisamment important, il peut y avoir une incitation à approfondir l'étude, par exemple en utilisant un échantillon plus important.

Par exemple, un certain médicament peut réduire le risque d'avoir une crise cardiaque. Les hypothèses nulles possibles sont "ce médicament ne réduit pas les chances d'avoir une crise cardiaque" ou "ce médicament n'a aucun effet sur les chances d'avoir une crise cardiaque". Le test de l'hypothèse consiste à administrer le médicament à la moitié des personnes d'un groupe d'étude en tant qu'expérience contrôlée . Si les données montrent un changement statistiquement significatif chez les personnes recevant le médicament, l'hypothèse nulle est rejetée.

Définitions basiques

L' hypothèse nulle et l' hypothèse alternative sont des types de conjectures utilisées dans les tests statistiques, qui sont des méthodes formelles pour tirer des conclusions ou prendre des décisions sur la base de données. Les hypothèses sont des conjectures sur un modèle statistique de la population , qui sont basées sur un échantillon de la population. Les tests sont des éléments essentiels de l'inférence statistique , largement utilisés dans l'interprétation des données expérimentales scientifiques, pour séparer les affirmations scientifiques du bruit statistique.

« La déclaration testée dans un test de signification statistique est appelée hypothèse nulle . Le test de signification est conçu pour évaluer la force de la preuve par rapport à l'hypothèse nulle. Habituellement, l'hypothèse nulle est une déclaration « aucun effet » ou « » aucune différence'." Il est souvent symbolisé par H 0 .

L'énoncé qui est testé par rapport à l'hypothèse nulle est l' hypothèse alternative . Les symboles incluent H 1 et H a .

Test de signification statistique : « Très grossièrement, la procédure pour décider se déroule comme suit : Prenez un échantillon aléatoire de la population. Si les données de l'échantillon sont cohérentes avec l'hypothèse nulle, ne rejetez pas l'hypothèse nulle ; si les données de l'échantillon sont incohérentes avec l'hypothèse nulle, puis rejeter l'hypothèse nulle et conclure que l'hypothèse alternative est vraie.

Les sections suivantes ajoutent du contexte et des nuances aux définitions de base.

Exemple

Compte tenu des résultats aux tests de deux échantillons aléatoires , l'un d'hommes et l'autre de femmes, un groupe diffère-t-il de l'autre ? Une hypothèse nulle possible est que le score moyen des hommes est le même que le score moyen des femmes :

H 0 : μ 1 = μ 2

H 0 = l'hypothèse nulle,
μ 1 = la moyenne de la population 1, et
μ 2 = la moyenne de la population 2.

Une hypothèse nulle plus forte est que les deux échantillons sont tirés de la même population, de sorte que les variances et les formes des distributions sont également égales.

Terminologie

Hypothèse simple
Toute hypothèse qui précise complètement la répartition de la population. Pour une telle hypothèse, la distribution d'échantillonnage de toute statistique est fonction de la taille de l'échantillon uniquement.
Hypothèse composite
Toute hypothèse qui ne précise pas complètement la répartition de la population. Exemple : Une hypothèse spécifiant une distribution normale avec une moyenne spécifiée et une variance non spécifiée.

La distinction simple/composite a été faite par Neyman et Pearson.

Hypothèse exacte
Toute hypothèse qui spécifie une valeur de paramètre exacte. Exemple : μ = 100. Synonyme : hypothèse ponctuelle .
Hypothèse inexacte
Ceux qui spécifient une plage de paramètres ou un intervalle. Exemples : ≤ 100 ; 95 μ ≤ 105.

Fisher a exigé une hypothèse nulle exacte pour le test (voir les citations ci-dessous).

Une hypothèse unilatérale (testée à l'aide d'un test unilatéral) est une hypothèse inexacte dans laquelle la valeur d'un paramètre est spécifiée comme étant soit :

  • supérieur ou égal à une certaine valeur, ou
  • inférieur ou égal à une certaine valeur.

Une hypothèse unilatérale est dite directionnelle .

L'exemple original de Fisher ( dame dégustant du thé ) était un test unilatéral. L'hypothèse nulle était asymétrique. La probabilité de deviner correctement toutes les tasses était la même que de deviner toutes les tasses de manière incorrecte, mais Fisher a noté que seule deviner correctement était compatible avec la demande de la dame. (Voir les citations ci-dessous à propos de son raisonnement.)

Objectifs des tests d'hypothèse nulle

Il existe de nombreux types de tests de signification pour un, deux échantillons ou plus, pour les moyennes, les variances et les proportions, les données appariées ou non appariées, pour différentes distributions, pour les grands et les petits échantillons ; tous ont des hypothèses nulles. Il existe également au moins quatre objectifs d'hypothèses nulles pour les tests de signification :

  • Des hypothèses techniques nulles sont utilisées pour vérifier les hypothèses statistiques. Par exemple, les résidus entre les données et un modèle statistique ne peuvent pas être distingués du bruit aléatoire. Si c'est vrai, il n'y a aucune justification pour compliquer le modèle.
  • Les hypothèses scientifiques nulles sont utilisées pour faire avancer directement une théorie. Par exemple, le moment angulaire de l'univers est nul. Si ce n'est pas vrai, la théorie de l'univers primitif peut avoir besoin d'être révisée.
  • Des hypothèses nulles d' homogénéité sont utilisées pour vérifier que plusieurs expériences produisent des résultats cohérents. Par exemple, l'effet d'un médicament sur les personnes âgées est cohérent avec celui de la population adulte en général. Si cela est vrai, cela renforce la conclusion générale d'efficacité et simplifie les recommandations d'utilisation.
  • Des hypothèses nulles qui affirment l'égalité d'effet de deux ou plusieurs traitements alternatifs, par exemple, un médicament et un placebo, sont utilisées pour réduire les allégations scientifiques basées sur le bruit statistique. C'est l'hypothèse nulle la plus populaire ; Il est si populaire que de nombreuses déclarations sur les tests significatifs supposent de telles hypothèses nulles.

Le rejet de l'hypothèse nulle n'est pas nécessairement le véritable objectif d'un testeur de signification. Un modèle statistique adéquat peut être associé à un échec de rejet du nul ; le modèle est ajusté jusqu'à ce que le zéro ne soit pas rejeté. Les nombreuses utilisations des tests de signification étaient bien connues de Fisher qui en a discuté plusieurs dans son livre écrit une décennie avant de définir l'hypothèse nulle.

Un test de signification statistique partage beaucoup de mathématiques avec un intervalle de confiance . Ils s'éclairent mutuellement . Un résultat est souvent significatif lorsqu'il existe une confiance dans le signe d'une relation (l'intervalle n'inclut pas 0). Chaque fois que le signe d'une relation est important, la signification statistique est un objectif louable. Cela révèle également les faiblesses des tests de signification : un résultat peut être significatif sans une bonne estimation de la force d'une relation ; l'importance peut être un objectif modeste. Une relation faible peut également devenir significative avec suffisamment de données. Il est généralement recommandé de déclarer à la fois la signification et les intervalles de confiance.

Les utilisations variées des tests de signification réduisent le nombre de généralisations qui peuvent être faites sur toutes les applications.

Choix de l'hypothèse nulle

Le choix de l'hypothèse nulle est associé à des avis clairsemés et incohérents. Fisher a mentionné peu de contraintes sur le choix et a déclaré que de nombreuses hypothèses nulles devraient être considérées et que de nombreux tests sont possibles pour chacune. La variété des applications et la diversité des objectifs suggèrent que le choix peut être compliqué. Dans de nombreuses applications, la formulation du test est traditionnelle. Une familiarité avec la gamme de tests disponibles peut suggérer une hypothèse nulle et un test particulier. La formulation de l'hypothèse nulle n'est pas automatisée (bien que les calculs des tests de signification le soient généralement). Sir David Cox a déclaré : « La manière dont [la] traduction du problème du sujet en modèle statistique est effectuée est souvent la partie la plus critique d'une analyse ».

Un test de signification statistique est destiné à tester une hypothèse. Si l'hypothèse résume un ensemble de données, il n'y a aucune valeur à tester l'hypothèse sur cet ensemble de données. Exemple : Si une étude des bulletins météorologiques de l'année dernière indique que la pluie dans une région tombe principalement le week-end, il n'est valable de tester cette hypothèse nulle sur les bulletins météorologiques d'une autre année. Tester les hypothèses suggérées par les données est un raisonnement circulaire qui ne prouve rien ; Il s'agit d'une limitation particulière sur le choix de l'hypothèse nulle.

Une procédure de routine est la suivante : Partez de l'hypothèse scientifique. Traduisez cela en une hypothèse statistique alternative et procédez : « Parce que H a exprime l'effet pour lequel nous souhaitons trouver des preuves, nous commençons souvent par H a , puis nous définissons H 0 comme l'affirmation selon laquelle l'effet espéré n'est pas présent. " Ce conseil est inversé pour les applications de modélisation où nous espérons ne pas trouver de preuves contre le null.

Un exemple de cas complexe est le suivant : L'étalon-or en recherche clinique est l' essai clinique randomisé en double aveugle contrôlé par placebo . Mais tester un nouveau médicament contre un placebo (médicalement inefficace) peut être contraire à l'éthique pour une maladie grave. Tester un nouveau médicament contre un ancien médicament efficace sur le plan médical soulève des questions philosophiques fondamentales concernant l'objectif du test et la motivation des expérimentateurs. L'hypothèse nulle standard « pas de différence » peut récompenser la société pharmaceutique pour la collecte de données inadéquates. La « différence » est une meilleure hypothèse nulle dans ce cas, mais la signification statistique n'est pas un critère adéquat pour parvenir à une conclusion nuancée qui nécessite une bonne estimation numérique de l'efficacité du médicament. Un changement proposé « mineur » ou « simple » dans l'hypothèse nulle ((nouveau contre ancien) plutôt que (nouveau contre placebo)) peut avoir un effet dramatique sur l'utilité d'un test pour des raisons non statistiques complexes.

Directionnalité

Le choix de l'hypothèse nulle ( H 0 ) et la prise en compte de la directionnalité (voir « test unilatéral ») est critique.

Queue du test de l'hypothèse nulle

Considérez la question de savoir si une pièce de monnaie lancée est juste (c'est-à-dire qu'en moyenne, elle tombe tête haute 50 % du temps) et une expérience où vous lancez la pièce 5 fois. Un résultat possible de l'expérience que nous considérons ici est 5 têtes. Soit les résultats considérés comme peu probables par rapport à une distribution supposée si leur probabilité est inférieure à un seuil de signification de 0,05.

Une hypothèse nulle potentielle impliquant un test unilatéral est "cette pièce n'est pas biaisée vers la face". Attention, dans ce contexte, le mot "queue" prend deux sens : soit comme résultat d'un seul lancer, soit comme région de valeurs extrêmes dans une distribution de probabilité.

En effet, avec une pièce équitable, la probabilité du résultat de cette expérience est de 1/2 5 = 0,031, ce qui serait encore plus faible si la pièce était biaisée en faveur des piles. Par conséquent, les observations ne sont pas suffisamment probables pour que l'hypothèse nulle soit vérifiée et le test la réfute. Étant donné que la pièce n'est apparemment ni juste ni biaisée vers la pile, la conclusion de l'expérience est que la pièce est biaisée vers la face.

Alternativement, une hypothèse nulle impliquant un test bilatéral est « cette pièce est juste ». Cette hypothèse nulle pourrait être examinée en recherchant trop de queues ou trop de têtes dans les expériences. Les issues qui tendraient à refuser cette hypothèse nulle sont celles avec un grand nombre de têtes ou un grand nombre de queues, et notre expérience avec 5 têtes semblerait appartenir à cette classe.

Cependant, la probabilité de 5 lancers de même nature, qu'ils soient à pile ou face, est deux fois plus élevée que celle de l'occurrence de 5 têtes considérée individuellement. Par conséquent, sous cette hypothèse nulle bilatérale, l'observation reçoit une valeur de probabilité de 0,063. Par conséquent, à nouveau, avec le même seuil de signification utilisé pour le test unilatéral (0,05), le même résultat n'est pas statistiquement significatif. Par conséquent, l'hypothèse nulle bilatérale sera préservée dans ce cas, ne soutenant pas la conclusion atteinte avec l'hypothèse nulle unilatérale, selon laquelle la pièce est biaisée en faveur de face.

Cet exemple illustre que la conclusion tirée d'un test statistique peut dépendre de la formulation précise des hypothèses nulle et alternative.

Discussion

Fisher a dit, « l'hypothèse nulle doit être exacte, c'est-à-dire exempte d'imprécision et d'ambiguïté, car elle doit fournir la base du « problème de distribution », dont le test de signification est la solution », impliquant un domaine plus restrictif pour H 0 . Selon ce point de vue, l'hypothèse nulle doit être numériquement exacte - elle doit indiquer qu'une quantité ou une différence particulière est égale à un nombre particulier. Dans la science classique, c'est le plus souvent la déclaration qu'il n'y a aucun effet d'un traitement particulier ; dans les observations, c'est typiquement qu'il n'y a pas de différence entre la valeur d'une variable mesurée particulière et celle d'une prédiction.

La plupart des statisticiens pensent qu'il est valable d'énoncer la direction dans le cadre d'une hypothèse nulle ou dans le cadre d'une paire hypothèse nulle/hypothèse alternative. Cependant, les résultats ne sont pas une description complète de tous les résultats d'une expérience, mais simplement un seul résultat adapté à un objectif particulier. Par exemple, considérons un H 0 qui prétend que la moyenne de population pour un nouveau traitement est une amélioration par rapport à un traitement bien établi avec une moyenne de population = 10 (connue d'après une longue expérience), l'alternative unilatérale étant que la moyenne du nouveau traitement > 10 . Si l'échantillon de preuves obtenu par la barre x est égal à -200 et que la statistique du test t correspondante est égale à -50, la conclusion du test serait qu'il n'y a aucune preuve que le nouveau traitement est meilleur que celui existant : il ne rapporterait pas que c'est nettement pire, mais ce n'est pas ce que recherche ce test particulier. Pour surmonter toute ambiguïté possible dans le rapport du résultat du test d'une hypothèse nulle, il est préférable d'indiquer si le test était bilatéral et, s'il était unilatéral, d'inclure la direction de l'effet testé.

La théorie statistique nécessaire pour traiter les cas simples de directionnalité traités ici, et les plus compliqués, utilise le concept de test non biaisé .

La directionnalité des hypothèses n'est pas toujours évidente. L'hypothèse nulle explicite de l' exemple du thé de dégustation de la Dame de Fisher était que la Dame n'avait pas une telle capacité, ce qui a conduit à une distribution de probabilité symétrique. La nature unilatérale du test résultait de l'hypothèse alternative unilatérale (un terme non utilisé par Fisher). L'hypothèse nulle est devenue implicitement unilatérale. La négation logique de la prétention unilatérale de la Dame était également unilatérale. (Allégation : Capacité > 0 ; Nul déclaré : Capacité = 0 ; Nul implicite : Capacité ≤ 0).

Les arguments purs sur l'utilisation de tests unilatéraux sont compliqués par la variété des tests. Certains tests (par exemple le test d'adéquation du 2 ) sont intrinsèquement unilatéraux. Certaines distributions de probabilité sont asymétriques. Les tests traditionnels de 3 groupes ou plus sont bilatéraux.

Les conseils concernant l'utilisation d'hypothèses unilatérales ont été incohérents et les pratiques acceptées varient selon les domaines. La plus grande objection aux hypothèses unilatérales est leur subjectivité potentielle. Un résultat non significatif peut parfois être converti en un résultat significatif par l'utilisation d'une hypothèse unilatérale (comme le test de la monnaie équitable, au gré de l'analyste). Le revers de l'argument : les tests unilatéraux sont moins susceptibles d'ignorer un effet réel. Les tests unilatéraux peuvent supprimer la publication de données dont le signe diffère des prédictions. L'objectivité était un objectif des développeurs de tests statistiques.

C'est une pratique courante d'utiliser une hypothèse unilatérale par défaut. Cependant, « si vous n'avez pas une direction précise en tête à l'avance, utilisez une alternative à deux faces. De plus, certains utilisateurs de statistiques soutiennent que nous devrions toujours travailler avec l'alternative à deux faces. »

Une alternative à ce conseil est d'utiliser des tests à trois résultats. Il élimine les problèmes liés à la directionnalité des hypothèses en testant deux fois, une fois dans chaque direction et en combinant les résultats pour produire trois résultats possibles. Les variations de cette approche ont une histoire, suggérées peut-être 10 fois depuis 1950.

Les désaccords sur les tests unilatéraux découlent de la philosophie des sciences. Alors que Fisher était prêt à ignorer le cas improbable de la Dame devinant toutes les tasses de thé de manière incorrecte (ce qui peut avoir été approprié pour les circonstances), la médecine pense qu'un traitement proposé qui tue des patients est important dans tous les sens et devrait être signalé et peut-être expliqué . Les mauvaises pratiques de déclaration statistique ont contribué aux désaccords sur les tests unilatéraux. La signification statistique résultant des tests bilatéraux est insensible au signe de la relation ; La déclaration de l'importance à elle seule est inadéquate. "Le traitement a un effet" est le résultat non informatif d'un test bilatéral. "Le traitement a un effet bénéfique" est le résultat le plus informatif d'un test unilatéral. "Le traitement a un effet, réduisant la durée moyenne d'hospitalisation de 1,5 jour" est le rapport le plus informatif, combinant un résultat de test de signification bilatéral avec une estimation numérique de la relation entre le traitement et l'effet. Le fait de rapporter explicitement un résultat numérique élimine l'avantage philosophique d'un test unilatéral. Un problème sous-jacent est la forme appropriée d'une science expérimentale sans théories prédictives numériques : un modèle de résultats numériques est plus informatif qu'un modèle de signes d'effet (positif, négatif ou inconnu) qui est plus informatif qu'un modèle de signification simple (non- zéro ou inconnu); en l'absence de théorie numérique, des signes peuvent suffire.

Historique des tests statistiques

L'histoire des hypothèses nulle et alternative est ancrée dans l'histoire des tests statistiques.

  • Avant 1925 : Il existe des traces occasionnelles transitoires de tests statistiques pendant des siècles dans le passé, qui fournissent des exemples précoces d'hypothèses nulles. À la fin du 19e siècle, la signification statistique a été définie. Au début du 20e siècle, d'importantes distributions de probabilité ont été définies. Gossett et Pearson ont travaillé sur des cas spécifiques de tests de signification.
  • 1925 : Fisher publie la première édition de Statistical Methods for Research Workers, qui définit le test de signification statistique et en fait une méthode d'analyse courante pour une grande partie de la science expérimentale. Le texte était dépourvu de preuves et faible sur les explications, mais il était rempli d'exemples réels. Il a placé la pratique statistique dans les sciences bien avant la théorie statistique publiée.
  • 1933 : Dans une série d'articles (publiés sur une décennie à partir de 1928), Neyman et Pearson définissent le test d'hypothèse statistique comme une proposition d'amélioration du test de Fisher. Les articles ont fourni une grande partie de la terminologie pour les tests statistiques, y compris l' hypothèse alternative et H 0 comme hypothèse à tester à l'aide de données d'observation (avec H 1 , H 2 ... comme alternatives). Neyman n'a pas utilisé le terme hypothèse nulle dans les écrits ultérieurs sur sa méthode.
  • 1935 : Fisher publie la première édition du livre The Design of Experiments qui introduit l'hypothèse nulle (par exemple plutôt que par définition) et explique soigneusement la justification des tests de signification dans le contexte de l'interprétation des résultats expérimentaux ; voir The Design of Experiments#Citations concernant l'hypothèse nulle .
  • Suivant : Fisher et Neyman se sont disputés sur les mérites relatifs de leurs formulations concurrentes jusqu'à la mort de Fisher en 1962. Les changements de carrière et la Seconde Guerre mondiale ont mis fin au partenariat de Neyman et Pearson. Les formulations ont été fusionnées par des auteurs de manuels, des expérimentateurs (éditeurs de revues) et des statisticiens mathématiques relativement anonymes sans la contribution des principaux. Le sujet combine aujourd'hui une grande partie de la terminologie et du pouvoir explicatif de Neyman & Pearson avec la philosophie scientifique et les calculs fournis par Fisher. Que les tests statistiques soient à proprement parler un ou deux sujets reste une source de désaccord. Exemple de deux : un texte fait référence au sujet en tant que test d'hypothèse (sans mention de test de signification dans l'indice) tandis qu'un autre parle de test de signification (avec une section sur l'inférence en tant que décision). Fisher a développé des tests de signification comme un outil flexible permettant aux chercheurs d'évaluer leurs preuves. Au lieu de cela, les tests sont devenus institutionnalisés. La signification statistique est devenue un critère strictement défini et appliqué pour la publication des résultats expérimentaux dans de nombreuses revues scientifiques. Dans certains domaines, les tests de signification sont devenus la forme dominante et presque exclusive d'analyse statistique. En conséquence, les limites des tests ont été étudiées de manière exhaustive. Les livres ont été remplis de critiques recueillies sur les tests de signification .

Voir également

Les références

Lectures complémentaires

  • Ader, HJ ; Mellenbergh, GJ & Hand, DJ (2007). Conseil sur les méthodes de recherche : Un compagnon de consultant . Huizen, Pays-Bas : Éditions Johannes van Kessel. ISBN 978-90-79418-01-5.
  • Efron, B. (2004). "Test d'hypothèse simultané à grande échelle". Journal de l'Association statistique américaine . 99 (465) : 96-104. doi : 10.1198/01621450400000089 . L'application des tests de signification dans cet article est une valeur aberrante. Des tests pour trouver une hypothèse nulle ? Ne pas essayer de montrer l'importance, mais trouver des cas intéressants ?
  • Riz, William R.; Gaines, Steven D. (juin 1994). " ' Face je gagne, face tu perds' : tester des hypothèses alternatives directionnelles dans la recherche écologique et évolutive ". ARBRE . 9 (6) : 235-237. doi : 10.1016/0169-5347(94)90258-5 . PMID  21236837 . Les tests dirigés combinent les attributs des tests unilatéraux et bilatéraux. « ... les tests dirigés devraient être utilisés dans pratiquement toutes les applications où des tests unilatéraux ont déjà été utilisés, à l'exception des cas où les données ne peuvent s'écarter de H 0 que dans une direction. »

Liens externes