Analyse de variance - Analysis of variance


Un article de Wikipédia, l'encyclopédie libre

L' analyse de variance ( Anova ) est une collection de modèles statistiques et leurs procédures d'estimation associées (comme la « variation » parmi et entre les groupes) utilisés pour analyser les différences entre les moyennes de groupe dans un échantillon . ANOVA a été développé par statisticienne et biologiste évolutionniste Ronald Fisher . Dans le cadre ANOVA, l'observé la variance dans une variable particulière est divisée en composants attribuables à différentes sources de variation. Dans sa forme la plus simple, ANOVA fournit un test statistique de savoir si la population signifie de plusieurs groupes sont égaux, et par conséquent , les généralise t -test à plus de deux groupes. ANOVA est utile pour comparer (test) trois groupes ou plus des moyens de signification statistique . Il est conceptuellement similaire à plusieurs tests t sur deux échantillons , mais il est plus prudent, ce qui entraîne en moins les erreurs de type I , et est donc adapté à un large éventail de problèmes pratiques.

L'histoire

Bien que l'analyse de la variance atteint fructification au 20e siècle, les antécédents étendent des siècles dans le passé selon Stigler. Ceux - ci comprennent les tests d'hypothèses, la répartition des sommes des carrés, des techniques expérimentales et le modèle additif. Laplace exécutait les tests d'hypothèses dans les années 1770. Le développement des méthodes des moindres carrés par Laplace et Gauss vers 1800 a fourni une méthode améliorée de combiner des observations (sur les pratiques existantes , puis utilisées en astronomie et en géodésie). Elle a également lancé beaucoup d' étude des contributions à la somme des carrés. Laplace savait comment estimer un écart par rapport à une somme résiduelle (plutôt que d' un total) de carrés. En 1827, Laplace utilisait des moindres carrés des méthodes pour résoudre les problèmes ANOVA concernant les mesures des marées atmosphériques. Avant 1800, les astronomes avaient isolé des erreurs d' observation résultant des temps de réaction (la « équation personnelle ») et ont développé des méthodes pour réduire les erreurs. Les méthodes expérimentales utilisées dans l'étude de l'équation personnelle ont ensuite été acceptées par le domaine émergent de la psychologie qui a développé une forte (factoriel) méthodes expérimentales auxquelles cécitante ont été randomisation et bientôt ajoutés. Un modèle éloquent explication non-mathématique des effets additifs était disponible en 1885.

Ronald Fisher a introduit le terme variance et a proposé son analyse formelle dans un article 1918 La corrélation entre parents sur la Supposition de Hérédité mendélienne . Sa première application de l'analyse de la variance a été publiée en 1921. L' analyse de la variance est devenu largement connu après avoir été inclus dans le livre de Fisher 1925 Méthodes statistiques pour les travailleurs de recherche .

Modèles de randomisation ont été développés par plusieurs chercheurs. Le premier a été publié par en polonais Jerzy Neyman en 1923.

L'un des attributs de ANOVA qui ont assuré sa popularité précoce était l'élégance de calcul. La structure du modèle additif permet solution pour les coefficients d'additifs par l'algèbre simple, plutôt que par des calculs matriciels. À l'époque des calculateurs mécaniques cette simplicité était critique. La détermination de la signification statistique nécessaire également accès aux tables de la fonction F qui ont été fournis par les textes des premières statistiques.

exemple motivants

Pas en forme.
ajustement équitable
Très bon ajustement

L'analyse de la variance peut être utilisée comme un outil d' exploration pour expliquer les observations. Un spectacle de chien donne un exemple. Un spectacle de chien n'est pas un échantillon aléatoire de la race: il est généralement limitée aux chiens qui sont adultes, de race pure, et exemplaire. Un histogramme de poids de chien d'un spectacle pourrait vraisemblablement être assez complexe, comme la distribution jaune-orange comme indiqué dans les illustrations. Supposons que nous voulions prédire le poids d'un chien basé sur un certain ensemble de caractéristiques de chaque chien. Une façon de le faire est d' expliquer la répartition des poids en divisant la population de chiens en groupes en fonction de ces caractéristiques. Un regroupement réussi se divisera les chiens tels que (a) chaque groupe a une faible variance de poids de chien ( ce qui signifie que le groupe est relativement homogène) et (b) la moyenne de chaque groupe est distinct (si deux groupes ont la même moyenne, il n'est pas raisonnable de conclure que les groupes sont, en fait, séparer de manière significative).

Dans les illustrations à droite, les groupes sont identifiés comme X 1 , X 2 , etc. Dans la première illustration, les chiens sont divisés en fonction du produit (interaction) de deux groupes binaires: jeunes vs vieux, et aux cheveux courts vs longue -haired (par exemple, le groupe 1 est jeune, les chiens à poil court, le groupe 2 est jeune, les chiens à poils longs, etc.). Étant donné que les distributions de poids de chien dans chacun des groupes (en bleu) a un écart relativement important, et que les moyens sont très similaires entre les groupes, le regroupement des chiens par ces caractéristiques ne produit pas un moyen efficace d'expliquer la variation du poids du chien : savoir quel groupe un chien est en ne nous permet pas de prédire son poids beaucoup mieux que de simplement savoir que le chien est dans un spectacle de chien. Ainsi, ce groupe ne parvient pas à expliquer la variation de la répartition globale (jaune-orange).

Pour tenter d'expliquer la répartition du poids en regroupant les chiens comme animaux de compagnie contre la race de travail et moins athlétique vs plus athlétique serait probablement un peu plus de succès (ajustement équitable). Les plus lourds chiens d'exposition sont susceptibles d'être les grandes races de travail solides, tandis que les races comme animaux de compagnie ont tendance à être plus petits et donc plus léger. Comme le montre la seconde illustration, les distributions ont des variances qui sont considérablement plus faibles que dans le premier cas, et les moyens sont plus faciles à distinguer. Cependant, le chevauchement important des distributions, par exemple, signifie que nous ne pouvons pas distinguer X 1 et X 2 de manière fiable. Chiens de regroupement selon un coin flip pourrait produire des distributions qui ressemblent.

Pour tenter d'expliquer le poids par la race est susceptible de produire un très bon ajustement. Tous les chihuahuas sont la lumière et tous les saint-bernard sont lourds. La différence de poids entre les Setters et les Pointers ne justifie pas les races distinctes. L'analyse de la variance fournit les outils formels pour justifier ces jugements intuitifs. Une utilisation courante de la méthode est l'analyse des données expérimentales ou le développement de modèles. La méthode présente certains avantages sur la corrélation: pas toutes les données doivent être numériques et un résultat de la méthode est un jugement de la confiance dans une relation d'explication.

Contexte et terminologie

ANOVA est une forme de tests d'hypothèses statistiques très utilisées dans l'analyse des données expérimentales. Un résultat (calculé à partir de l' hypothèse nulle et l'échantillon) est appelé statistiquement significative si elle est jugée peu probable qu'il ya eu par hasard, en supposant la vérité de l'hypothèse nulle . Un résultat statistiquement significatif, quand une probabilité ( valeur p ) est inférieure à un seuil prédéterminé (seuil de signification), justifie le rejet de l' hypothèse nulle , mais seulement si la probabilité a priori de l'hypothèse nulle est pas élevé.

Dans l'application typique de ANOVA, l'hypothèse nulle est que tous les groupes sont des échantillons aléatoires de la même population. Par exemple, lorsque l'on étudie l'effet de différents traitements sur des échantillons similaires de patients, l'hypothèse nulle serait que tous les traitements ont le même effet (peut-être pas). Rejetant l'hypothèse nulle, on entend que les différences dans les effets observés entre les groupes de traitement sont peu susceptibles d'être dus au hasard au hasard.

Par construction, les tests d'hypothèses limite le taux d' erreurs de type I (faux positifs) à un niveau de signification. Expérimentateurs souhaitent également limiter les erreurs de type II (faux négatifs). Le taux d'erreurs de type II dépend en grande partie de la taille de l' échantillon (le taux est plus grand pour les échantillons plus petits), le niveau de signification (lorsque la norme de la preuve est élevé, les chances de passer à côté d' une découverte sont également élevés) et la taille de l' effet (un effet de taille plus petite est plus enclin à l' erreur de type II).

La terminologie de ANOVA est en grande partie de la statistique conception des expériences . L'expérimentateur ajuste les facteurs et les réponses des mesures pour tenter de déterminer un effet. Les facteurs sont affectés à des unités expérimentales par une combinaison de randomisation et de blocage pour assurer la validité des résultats. Blinding maintient le poids impartial. Les réponses montrent une variabilité qui est en partie le résultat de l'effet et est partiellement erreur aléatoire.

ANOVA est la synthèse de plusieurs idées et il est utilisé à des fins multiples. En conséquence, il est difficile de définir de façon concise ou précise.

« Classique » pour les données ANOVA équilibrée fait trois choses à la fois:

  1. Comme l' analyse des données d' exploration , une ANOVA utilise un additif données décomposition, et ses sommes de carrés indique la variance de chaque composante de la décomposition (ou, de manière équivalente, chaque ensemble de termes d'un modèle linéaire).
  2. La comparaison des carrés moyens, ainsi qu'un F -test  ... permettent de tester une séquence imbriquée de modèles.
  3. Étroitement liée à la ANOVA est un ajustement de modèle linéaire avec les estimations des coefficients et des erreurs standard.

En bref, Anova est un outil statistique utilisé de plusieurs façons de développer et confirmer une explication pour les données observées.

Aditionellement:

  1. Il est informatiquement élégant et relativement robuste contre les violations de ses hypothèses.
  2. ANOVA offre forte (comparaison de plusieurs échantillons) analyse statistique.
  3. Il a été adapté à l'analyse d'une variété de modèles expérimentaux.

En conséquence: ANOVA « a longtemps bénéficié du statut d'être le plus utilisé (certains diraient abusé) technique statistique dans la recherche psychologique. » ANOVA « est probablement la plus utile technique dans le domaine de l' inférence statistique. »

ANOVA est difficile d'enseigner, en particulier pour des expériences complexes, avec split-plot DESIGNS étant notoire. Dans certains cas , l'application correcte de la méthode est mieux déterminée par la reconnaissance des formes problème suivie par la consultation d'un test faisant autorité classique.

Conception-de-expériences termes

(Condensé du « Manuel de la statistique NIST ingénierie ». Section 5.7 Glossaire du DOE Terminologie.)

conception équilibrée
Une conception expérimentale où toutes les cellules (par exemple combinaisons de traitement) ont le même nombre d'observations.
Blocage
Un calendrier d'exécution des combinaisons de traitement dans une étude expérimentale telle que les effets sur les résultats expérimentaux en raison d'un changement connu dans les matières premières, les opérateurs, machines, etc., se concentrent dans les niveaux de la variable de blocage. La raison de blocage est d'isoler un effet systématique et l'empêcher d'obscurcir les effets principaux. Le blocage est atteint en limitant la randomisation.
Conception
Une série d'essais expérimentaux qui permet l'ajustement d'un modèle particulier et l'estimation des effets.
BICHE
Conception d'expériences. Une approche de résolution de problèmes impliquant la collecte de données qui soutiendra des conclusions valides, défendables et justifiables.
Effet
Comment modifier les paramètres d'un facteur modifie la réponse. L'effet d'un seul facteur est aussi appelé un effet principal.
Erreur
variations inexpliquées dans une collection d'observations. DOE exigent généralement la compréhension à la fois une erreur aléatoire et de l'absence d'erreur en forme.
unité expérimentale
L'entité à laquelle une combinaison de traitement spécifique est appliquée.
Les facteurs
Les entrées de processus qu'un enquêteur manipule pour provoquer un changement dans la sortie.
Le manque d'ajustement erreur
Erreur qui se produit lorsque l'analyse omet un ou plusieurs termes importants ou facteurs du modèle de processus. y compris la replication dans un DOE permet la séparation de l'erreur expérimentale en ses composants: manque d'ajustement et de l'erreur aléatoire (pure).
Modèle
relation mathématique qui concerne les changements dans une réponse donnée à des changements dans un ou plusieurs facteurs.
Erreur aléatoire
Erreur qui se produit en raison de la variation naturelle dans le processus. L'erreur aléatoire est généralement supposé être normalement distribué avec une moyenne nulle et une variance constante. L'erreur aléatoire est également appelée erreur expérimentale.
Randomisation
Un calendrier d'attribution matériel de traitement et pour effectuer des combinaisons de traitement dans un DOE de sorte que les conditions de vie dans une course ne dépendent des conditions de la course précédente, ni prévoir les conditions dans les essais ultérieurs.
La réplication
Exécution de la même combinaison de traitement plus d'une fois. Y compris la réplication permet une estimation de l'erreur aléatoire indépendamment de toute absence d'erreur en forme.
réponses
La sortie (s) d'un processus. Parfois appelée variable dépendante (s).
Traitement
Un traitement est une combinaison spécifique de niveaux de facteurs dont l'effet est à comparer avec d'autres traitements.

Table ANOVA

Une ANOVA
Sources df SS MSS F -ratio
entre le traitement k-1 SST MST (SST / (k-1)) MST / MSE
Erreur N-k SSE MSE (SSE / (N-k))
Total N-1
  • SSE - Somme-de-Square suite à une erreur
  • SST - Somme-de-Place de traitement
  • MST - Somme moyenne équerrage traitement
  • MSE - Somme moyenne équerrage erreur
  • df - degrés de liberté
ANOVA à deux voies
La source df SS MSS F -ratio
entre le traitement k-1 RSS MST (SSR / (k-1)) MST / MSE ( F la rangée de)
entre le bloc h-1 SSC MSV (SSC / (h-1)) MSV / MSE ( F la colonne de)
Erreur (H-1) (k-1) SSE MSE (SSE / ((h-1) (k-1)))
Total N-1
  • SSR - Somme-de-place du traitement dans les lignes (SST)
  • SSC - Somme-de-place entre la colonne
  • MSV - Somme moyenne de la variance

Classes de modèles

Il existe trois catégories de modèles utilisés dans l'analyse de la variance, et ceux-ci sont décrites ici.

modèles à effets fixes

Le modèle à effets fixes (classe I) de l' analyse de la variance s'applique à des situations où l'expérimentateur applique un ou plusieurs traitements aux sujets de l'expérience pour voir si les variables réponse valeurs changent. Cela permet à l'expérimentateur d'estimer les plages de valeurs des variables de réponse que le traitement produirait dans la population dans son ensemble.

modèles à effets aléatoires

Modèle à effets aléatoires (classe II) est utilisée lorsque les traitements ne sont pas fixes. Cela se produit lorsque les différents niveaux de facteur sont prélevés dans une population plus importante. Parce que les niveaux eux - mêmes sont des variables aléatoires , certaines hypothèses et la méthode de contraste les traitements (une généralisation à variables multiples des différences simples) diffèrent du modèle à effets fixes.

Modèles à effets mixtes

Un modèle à effets mixtes (classe III) contient des facteurs expérimentaux de ces deux types, avec des interprétations et analyse de façon appropriée les différents fixes et des effets aléatoires pour les deux types.

Exemple: expériences d'enseignement pourraient être effectuées par un service de collège ou une université pour trouver un bon manuel d'introduction, chaque texte considéré comme un traitement. Le modèle à effets fixes comparerait une liste des textes candidats. Le modèle à effets aléatoires déterminerait si des différences importantes existent parmi une liste de textes choisis au hasard. Le modèle à effets mixtes comparerait les textes historiques (fixes) à au hasard des alternatives choisies.

La définition fixe et des effets aléatoires est avéré difficile à atteindre, avec des définitions concurrentes conduisant sans doute vers un bourbier linguistique.

Hypothèses

L'analyse de la variance a été étudiée de plusieurs approches, dont les plus courants d'utilisation d' un modèle linéaire qui concerne la réponse aux traitements et blocs. Notez que le modèle est linéaire dans les paramètres , mais peut être non linéaire entre les différents niveaux de facteur. L' interprétation est facile lorsque les données équilibré entre facteurs , mais la compréhension beaucoup plus profonde est nécessaire pour les données non équilibrées.

analyse des manuels scolaires à l'aide d'une distribution normale

L'analyse de la variance peut être présentée en termes d'un modèle linéaire , ce qui rend les hypothèses suivantes au sujet de la distribution de probabilité des réponses:

  • Indépendance des observations - ce qui est une hypothèse du modèle qui simplifie l'analyse statistique.
  • Normalité - les distributions des résidus sont normaux .
  • L' égalité (ou « homogénéité ») des écarts, appelé homoscedasticité - la variance des données dans des groupes devrait être le même.

Les hypothèses distinctes du modèle classique implique que les erreurs sont indépendamment, de manière identique, et une distribution normale pour les modèles à effets fixes, à savoir que les erreurs ( ) sont indépendants et

analyse basée randomisation

Dans un essai contrôlé randomisé , les traitements sont répartis au hasard dans les unités expérimentales, suivant le protocole expérimental. Cet objectif est randomisation et a déclaré avant l'expérience est effectuée. L'affectation aléatoire objectif est utilisé pour tester la signification de l'hypothèse nulle, suivant les idées de CS Peirce et Ronald Fisher . Cette analyse fondée sur le plan a été discuté et développé par Francis J. Anscombe à Rothamsted Station expérimentale et par Oscar Kempthorne à l'Iowa State University . Kempthorne et ses élèves font une hypothèse de additivité de traitement de l' unité , dont il est question dans les livres de Kempthorne et David R. Cox .

additivité unité de traitement

Dans sa forme la plus simple, l'hypothèse de l' additivité unité de traitement indique que la réponse observée à partir de l' unité expérimentale lorsque le traitement de réception peut être écrite comme la somme de la réponse de l'unité et l'effet du traitement , qui est

L'hypothèse de l' additivité unité de traitement implique que, pour chaque traitement , le traitement a exactement e le même effet sur chaque unité d'expérience.

L'hypothèse d'additivité de traitement de l' unité ne peut généralement pas être directement falsifié , selon Cox et Kempthorne. Cependant, de nombreuses conséquences de additivité unités de traitement peuvent être falsifiées. Pour une expérience aléatoire, l'hypothèse d'additivité unité de traitement implique que la variance est constante pour tous les traitements. Par conséquent, en contraposition , une condition nécessaire pour additivité unité de traitement est que la variance est constante.

L'utilisation de additivité de traitement de l' unité et la randomisation est similaire à l'inférence basé sur la conception qui est standard dans la population finie échantillonnage de l' enquête .

Dérivé modèle linéaire

Kempthorne utilise la randomisation de distribution et l'hypothèse d' additivité de traitement de l' unité afin de produire un modèle linéaire dérivé , très semblable au modèle classique décrit précédemment. Les statistiques de test de ce modèle linéaire dérivé sont étroitement approchées par les statistiques de test d'un modèle linéaire normale appropriée, selon théorèmes d'approximation et des études de simulation. Cependant, il y a des différences. Par exemple, les résultats d'analyse à base randomisation dans un petit (strictement) corrélation négative entre les observations. Dans l'analyse fondée sur la randomisation, il n'y a aucune prise en charge d'une normale de distribution et certainement aucune hypothèse d' indépendance . Au contraire, les observations dépendent !

L'analyse fondée sur randomisation présente l'inconvénient que son exposition implique l'algèbre fastidieuse et beaucoup de temps. Depuis l'analyse basée randomisation est complexe et est étroitement approchée par l'approche à l'aide d'un modèle linéaire normale, la plupart des enseignants mettent l'accent sur l'approche du modèle linéaire normal. Peu de statisticiens objet d'une analyse basée sur des modèles d'expériences aléatoires équilibrées.

Les modèles statistiques pour les données d'observation

Toutefois, lorsqu'il est appliqué aux données d'expériences ou non-randomisée des études d' observation , l' analyse basée sur un modèle ne dispose pas du mandat de la randomisation. Pour les données d' observation, la dérivation des intervalles de confiance doivent utiliser subjectifs modèles, comme l'a souligné Ronald Fisher et ses partisans. Dans la pratique, les estimations des effets de traitement des études d' observation sont généralement souvent incompatibles. Dans la pratique, « modèles statistiques » et les données d' observation sont utiles pour suggérer des hypothèses qui doivent être traitées avec beaucoup de prudence par le public.

Résumé des hypothèses

Le modèle normale sur la base d' analyse ANOVA suppose l'indépendance, la normalité et l' homogénéité des variances des résidus. L'analyse comparative randomisation suppose que l'homogénéité des variances des résidus (à la suite de l' additivité unité de traitement) et utilise la procédure de randomisation de l'expérience. Ces deux analyses nécessitent homoscédasticité , comme hypothèse de l'analyse modèle normal et en conséquence de la randomisation et additivité pour l'analyse fondée sur la randomisation.

Cependant, l' étude des processus qui changent les écarts plutôt que des moyens (appelés effets de dispersion) ont été menées avec succès en utilisant ANOVA. Il n'y a pas d' hypothèses nécessaires pour ANOVA dans sa généralité, mais le F -test utilisé pour les tests d'hypothèses ANOVA a des hypothèses et des limites pratiques qui sont de poursuivre l' intérêt.

Les problèmes qui ne satisfont pas aux hypothèses de ANOVA peuvent souvent être transformés pour satisfaire les hypothèses. La propriété d'additivité unité de traitement ne sont pas invariantes par un « changement d'échelle », donc les statisticiens utilisent souvent des transformations pour réaliser additivité traitement de l' unité. Si la variable de réponse devrait suivre une famille paramétrique des distributions de probabilité, le statisticien peut spécifier (dans le protocole de l'expérience ou étude d' observation) que les réponses soient transformées pour stabiliser la variance. En outre, un statisticien peut préciser que les transformations logarithmiques être appliquées aux réponses, qui sont censées suivre un modèle multiplicatif. Selon de Cauchy équation fonctionnelle théorème, le logarithme est la seule transformation qui transforme continue réelle multiplication addition.

Les caractéristiques

ANOVA est utilisé dans l'analyse des expériences comparatives, celles où seule la différence dans les résultats est d'intérêt. La signification statistique de l'expérience est déterminée par un rapport de deux écarts. Ce rapport est indépendant de plusieurs modifications possibles aux observations expérimentales: Ajout d' une constante à toutes les observations ne modifie pas la signification. Toutes les observations par la multiplication d' une constante ne modifie pas la signification. Donc , résultat de signification statistique ANOVA est indépendante des erreurs de biais et de mise à l' échelle constants, ainsi que les unités utilisées pour exprimer des observations. A l'ère de calcul mécanique , il était courant de soustraire de toutes les observations d' une constante (en équivalent à l' abandon premiers chiffres) pour simplifier la saisie de données. Ceci est un exemple de données de codage .

Logique

Les calculs de variance peuvent être caractérisés comme le calcul d'un certain nombre de moyens et les écarts, en divisant deux variances et comparer le rapport à une valeur de guide pour déterminer la signification statistique. Le calcul d'un effet de traitement est alors trivial, « l'effet d'un traitement est estimée en prenant la différence entre la moyenne des observations qui reçoivent le traitement et la moyenne générale ».

Le partitionnement de la somme des carrés

ANOVA utilise une terminologie normalisée traditionnelle. L'équation définitionnelle de la variance de l' échantillon est , où le diviseur est appelé les degrés de liberté (DF), la somme est appelée la somme des carrés (SS), le résultat est appelé le carré moyen (MS) et les termes au carré sont écarts par rapport à moyenne de l'échantillon. ANOVA estime 3 variances de l' échantillon: une variance totale sur la base de l' ensemble des écarts d'observation de la grande moyenne, une variance d'erreur basée sur l' ensemble des écarts d'observation à partir de leurs moyens de traitement appropriés, et une variance de traitement. La variance de traitement est basé sur les écarts des moyens de traitement de la grande moyenne, le résultat étant multiplié par le nombre d'observations dans chaque traitement pour tenir compte de la différence entre la variance des observations et de la variance de moyens.

La technique fondamentale est un cloisonnement du total somme des carrés SS en composantes liées aux effets utilisés dans le modèle. Par exemple, le modèle simplifié pour une analyse de variance avec un type de traitement à différents niveaux.

Le nombre de degrés de liberté DF peut être partitionné de façon similaire: l' un de ces composants (que l'erreur) spécifie une distribution chi-carré qui décrit la somme associée des carrés, tandis que la même chose est vraie pour les « traitements » en cas aucun effet de traitement.

Voir aussi Manque d'ajustement somme des carrés .

Le F -test

Le F -test est utilisé pour comparer les facteurs de la déviation totale. Par exemple, dans un sens ou un seul facteur ANOVA, la signification statistique est testée en comparant la statistique de test F

MS est quadratique moyenne, = nombre de traitements et = nombre total de cas

la F -Distribution avec , degrés de liberté. Utilisation de la F -Distribution est un candidat naturel parce que la statistique de test est le rapport de deux sommes mis à l' échelle des carrés chacun fait suite à une mise à l' échelle de distribution du chi carré .

La valeur attendue de F est (où n est la taille de l' échantillon de traitement) qui est 1 pour aucun effet sur le traitement. Comme les valeurs de croissance F 1 ci - dessus, la preuve est de plus en plus incompatible avec l'hypothèse nulle. Deux méthodes expérimentales apparentes de plus en plus F augmentent la taille de l' échantillon et réduire la variance d'erreur par des contrôles expérimentaux serrés.

Il existe deux méthodes de conclusion du test d'hypothèse ANOVA, les deux qui produisent le même résultat:

  • La méthode de manuel est de comparer la valeur observée de F avec la valeur critique de F déterminée à partir de tables. La valeur critique de F est une fonction des degrés de liberté du numérateur et du dénominateur et le niveau de signification (α). Si F ≥ F critique , est rejeté l'hypothèse nulle.
  • Méthode de calculateur calcule la probabilité (valeur p) d'une valeur de F supérieure ou égale à la valeur observée. L'hypothèse nulle est rejetée si cette probabilité est inférieure ou égale au niveau de signification (α).

Le ANOVA F -test est connu pour être presque optimale dans le sens de la minimisation des erreurs de faux négatifs pour un taux fixe d'erreurs faux positifs (c. -à maximiser la puissance pour un niveau de signification fixe). Par exemple, pour tester l'hypothèse selon laquelle les divers traitements médicaux ont exactement le même effet, le F -test « s p -values se rapproche de près les tests permutation » s p valeurs : L'approximation est particulièrement étroite lorsque la conception est équilibrée. Ces tests de permutation caractérisent les tests avec une puissance maximale contre toutes les hypothèses alternatives , comme l'a observé Rosenbaum. Le ANOVA F -test (de l'hypothèse nulle que tous les traitements ont exactement le même effet) est recommandé comme un test pratique, en raison de sa robustesse contre de nombreuses distributions alternatives.

logique élargie

ANOVA est constitué de parties séparables; sources de partitionnement de la variance et les tests d'hypothèses peuvent être utilisés individuellement. ANOVA est utilisé pour soutenir d'autres outils statistiques. La régression est d'abord utilisé pour adapter des modèles plus complexes à des données, puis ANOVA est utilisé pour comparer les modèles avec l'objectif de sélectionner des modèles simples (r) qui décrivent de façon adéquate les données. « Ces modèles pourraient être en forme sans aucune référence à ANOVA, mais les outils ANOVA pourraient alors être utilisés pour faire un certain sens des modèles intégrés, et de tester des hypothèses sur des lots de coefficients. » « [W] e pense de l'analyse de la variance à plusieurs niveaux comme un moyen de modèles, pas de compréhension et de structuration comme une alternative à la régression, mais comme un outil de synthèse complexes inférences de grande dimension ... »

Pour un seul facteur

L'expérience la plus simple adapté à l' analyse ANOVA est l'expérience complètement aléatoire avec un seul facteur. Des expériences plus complexes avec un seul facteur impliquent des contraintes sur la répartition aléatoire et comprennent des blocs complètement randomisés et carrés latins (et variantes: carrés gréco-latine, etc.). Les expériences plus complexes partagent de nombreuses complexités de multiples facteurs. Une discussion relativement complète de l'analyse (modèles, résumés de données, table ANOVA) de l'expérience complètement aléatoire est disponible .

Pour de multiples facteurs

ANOVA généralise à l'étude des effets de multiples facteurs. Lorsque l'expérience comprend des observations à toutes les combinaisons de niveaux de chaque facteur, il est appelé factoriel . Expériences factorielles sont plus efficaces que d' une série d'expériences de facteur et l'efficacité augmente à mesure que le nombre de facteurs augmente. Par conséquent, les plans factoriels sont fortement utilisés.

L'utilisation de ANOVA pour étudier les effets de multiples facteurs a une complication. Dans un 3-way ANOVA avec des facteurs x, y et z, le modèle ANOVA comprend des termes pour les effets principaux (x, y, z) et les modalités d' interactions (xy, xz, yz, xyz). Tous les termes exigent des tests d'hypothèses. La prolifération des termes d'interaction augmente le risque que certains test d'hypothèse produira un faux positif par hasard. Heureusement, l' expérience indique que les interactions d'ordre élevé sont rares. La capacité de détecter les interactions est un avantage majeur du facteur multiple ANOVA. Tester un facteur à la fois cache des interactions, mais produit des résultats expérimentaux apparemment contradictoires.

La prudence est recommandée lors de la rencontre des interactions; termes d'interaction Test premier et élargir l'analyse au-delà ANOVA si les interactions se trouvent. Les textes varient dans leurs recommandations concernant la poursuite de la procédure ANOVA après avoir rencontré une interaction. Interactions compliquer l'interprétation des données expérimentales. Ni les calculs de signification ni les effets de traitement estimés peuvent être prises à leur valeur nominale. « Une interaction significative sera souvent masquer l'importance des effets principaux. » Les méthodes graphiques sont recommandées pour améliorer la compréhension. La régression est souvent utile. Une longue discussion des interactions est disponible dans Cox (1958). Certaines interactions peuvent être enlevés (par des transformations) tandis que d'autres ne peuvent pas.

Diverses techniques sont utilisées avec le facteur multiples ANOVA pour réduire la charge. Une technique utilisée dans les plans factoriels est de minimiser la réplication (peut - être pas la réplication avec le soutien de la ruse d' analyse ) et de combiner des groupes quand on trouve des effets statistiquement (ou presque) insignifiants. Une expérience avec de nombreux facteurs non significatifs peuvent s'effondrer en un seul avec quelques facteurs pris en charge par de nombreux réplications.

Exemples numériques de travail

Plusieurs exemples numériques entièrement travaillés sont disponibles. Un cas simple analyse utilise à sens unique (un seul facteur). Un cas plus complexe utilise une analyse à deux voies (deux facteurs).

analyse associée

Certaines analyses sont nécessaires à l' appui de la conception de l'expérience alors que d' autres analyse est effectuée après que les modifications des facteurs sont officiellement révélés produire des changements statistiquement significatifs dans les réponses. Parce que l' expérimentation est itérative, les résultats d'une expérience de modifier les plans pour les expériences suivantes.

analyse préparatoire

Le nombre d'unités expérimentales

Dans la conception d'une expérience, le nombre d'unités expérimentales est prévu pour satisfaire les objectifs de l'expérience. Expérimentation est souvent séquentielle.

Les premières expériences sont souvent conçues pour fournir des estimations moyennes sans biais des effets du traitement et de l'erreur expérimentale. Des expériences ultérieures sont souvent conçus pour tester une hypothèse selon laquelle un effet de traitement a une magnitude importante; dans ce cas, le nombre d'unités expérimentales est choisie de telle sorte que l'expérience est dans le budget et a une puissance suffisante, entre autres objectifs.

analyse de la taille de l'échantillon de rapports est généralement nécessaire en psychologie. « Fournir des informations sur la taille de l'échantillon et le processus qui a conduit à l'échantillon des décisions de taille. » L'analyse, qui est écrit dans le protocole expérimental avant l'expérience est menée, est examinée dans les demandes de subvention et les conseils de révision administrative.

En plus de l'analyse de puissance, il existe des méthodes moins formelles pour sélectionner le nombre d'unités expérimentales. Ceux-ci comprennent des procédés graphiques basés sur la limitation de la probabilité de fausses erreurs négatives, des méthodes graphiques basées sur une augmentation de la variation attendue (au-dessus des résidus) et des méthodes basées sur la réalisation d'un intervalle de confiance souhaitée.

Analyse de puissance

L' analyse de puissance est souvent appliquée dans le contexte de ANOVA afin d'évaluer la probabilité de rejeter avec succès l'hypothèse nulle si l' on suppose une certaine conception ANOVA, la taille de l' effet dans la population, la taille de l' échantillon et le niveau d' importance. L' analyse de puissance peut aider à la conception d'étude en déterminant la taille des échantillons serait nécessaire afin d'avoir une chance raisonnable de rejeter l'hypothèse nulle quand l'hypothèse alternative est vraie.

Taille de l'effet

Plusieurs mesures normalisées d'effet ont été proposées pour ANOVA de résumer la force de l'association entre un facteur prédictif (s) et la variable dépendante ou la différence globale standardisée du modèle complet. estimations normalisées effet de taille facilitent la comparaison des résultats des différentes études et disciplines. Cependant, alors que la taille des effets standardisés sont couramment utilisés dans une grande partie de la littérature professionnelle, une mesure non normalisée de la taille de l'effet qui a immédiatement des unités « significatives » peut être préférable à des fins de rapports.

Une analyse de suivi

Il est toujours approprié d'examiner soigneusement les valeurs aberrantes. Ils ont un impact disproportionné sur les conclusions statistiques et sont souvent le résultat d'erreurs.

confirmation du modèle

Il est prudent de vérifier que les hypothèses de ANOVA ont été respectées. Les résidus sont examinés ou analysés pour confirmer homoscédasticité et de normalité brute. Devraient avoir l'Residuals apparition de (zéro la distribution moyenne normale) bruit lorsqu'elle est tracée en fonction de quoi que ce soit , y compris le temps et les valeurs de données modélisées. Trends font allusion à des interactions entre les facteurs ou entre les observations. Une règle générale: «Si le plus grand écart - type est inférieure à deux fois le plus petit écart - type, on peut utiliser des méthodes basées sur l'hypothèse d'écarts types égaux et nos résultats seront encore à peu près correcte »

Suivi des tests

Un effet statistiquement significatif dans ANOVA est souvent suivi d'un ou plusieurs différents tests de suivi. Cela peut être fait afin d'évaluer quels groupes sont différents des autres groupes qui ou pour tester d'autres hypothèses ciblées. Des tests de suivi sont souvent distingués en termes de savoir si elles sont prévues ( a priori ) ou post hoc . Les contrôles planifiés sont déterminés avant d' examiner les données et les tests post hoc sont effectués après avoir examiné les données.

Souvent , l' un des « traitements » est pas, de sorte que le groupe de traitement peut agir comme un contrôle. Test de Dunnett (une modification du test t) vérifie si chacun des autres groupes de traitement a la même moyenne que le contrôle.

Post hoc des tests tels que le test de gamme de Tukey plus souvent comparer tous les groupes signifie avec tous les autres groupes moyenne et incorporer généralement une méthode de contrôle de type I erreurs. Les comparaisons, qui sont le plus souvent prévu, peuvent être simples ou composés. De simples comparaisons comparer un groupe signifie avec un autre moyen de groupe. Comparaisons des composés comparent typiquement deux ensembles de groupes moyens où un jeu a deux ou plusieurs groupes (par exemple, comparer groupe moyen des moyens du groupe A, B et C avec le groupe D). Les comparaisons peuvent également regarder des tests de tendance, comme relations linéaires et du second degré, lorsque la variable indépendante implique des niveaux commandés.

À la suite de ANOVA avec des tests de comparaisons multiples par paire a été critiquée pour plusieurs raisons. Il existe de nombreux tests (10) dans une table et des recommandations concernant leur utilisation sont vagues ou contradictoires.

Plans d'étude

Il existe plusieurs types de ANOVA. De nombreux statisticiens fondent ANOVA sur la conception de l'expérience , en particulier sur le protocole qui spécifie l' assignation aléatoire des traitements à des sujets; La description du mécanisme d'attribution du protocole devrait inclure une spécification de la structure des traitements et de tout blocage . Il est également fréquent d'appliquer ANOVA aux données d' observation en utilisant un modèle statistique approprié.

Certains modèles populaires utilisent les types suivants de Variance:

  • Une ANOVA est utilisée pour tester les différences entre deux ou plusieurs indépendants groupes (moyens), par exemple différents niveaux d'application d'urée dans une culture, ou différents niveaux d'action des antibiotiques sur plusieurs espèces bactériennes différentes, ou différents niveaux d'effet de certains médicaments sur des groupes de patients. Toutefois, si ces groupes ne soient pas indépendants, et il y a un ordre dans les groupes (tels que la maladie légère, modérée et sévère), ou à la dose d'un médicament ( par exemple 5 mg / ml, 10 mg / mL, 20 mg / mL) donné au même groupe de patients, alors une estimation de tendance linéaire doit être utilisée. En règle générale, cependant, l'ANOVA à sens unique est utilisé pour tester les différences entre les au moins trois groupes, depuis le cas de deux groupes peuvent être couverts par un test t . Quand il n'y a que deux moyens pour comparer, le test t et ANOVA F -test sont équivalentes; la relation entre ANOVA et t est donnée par F  =  t 2 .
  • Factoriel ANOVA est utilisé lorsque l'expérimentateur veut étudier les effets d'interaction entre les traitements.
  • Les mesures répétées ANOVA est utilisée lorsque les mêmes sujets sont utilisés pour chaque traitement (par exemple, dans une étude longitudinale ).
  • L' analyse multivariée de la variance (MANOVA) est utilisé lorsqu'il y a plus d'une variable de réponse .

Mises en garde

Expériences équilibrées (ceux avec une taille égale de l' échantillon pour chaque traitement) sont relativement faciles à interpréter; Expériences déséquilibrées offrent une plus grande complexité. Pour un seul facteur (à sens unique ) ANOVA, l'ajustement des données non équilibré est facile, mais l'analyse déséquilibrée manque à la fois robustesse et de puissance. Pour les modèles plus complexes , le manque d'équilibre conduit à des complications supplémentaires. « La propriété orthogonalité des effets principaux et les interactions présentes dans les données équilibrées ne porte pas sur le cas déséquilibré. Cela signifie que l'analyse habituelle des techniques de variance ne sont pas applicables. Par conséquent, l'analyse des factorielles asymétriques est beaucoup plus difficile que pour l' équilibre dessins « . Dans le cas général, « L'analyse de la variance peut également être appliquée à des données non équilibrée, mais les sommes des carrés, des carrés moyens et F -ratios dépendra de l'ordre dans lequel les sources de variation sont considérées. » Les techniques les plus simples pour la gestion des données non équilibrées rétablir l' équilibre soit jeter données ou par la synthèse des données manquantes. Des techniques plus complexes utilisent la régression.

ANOVA est (en partie) un test de signification. L'American Psychological Association estime que l'importance simplement des rapports est insuffisante et que les rapports des limites de confiance est préférable.

Alors que ANOVA est conservatrice (à maintenir un niveau de signification) contre les comparaisons multiples dans une dimension, il est prudent contre des comparaisons dans plusieurs dimensions.

généralisations

ANOVA est considéré comme un cas particulier de régression linéaire qui à son tour est un cas particulier du modèle linéaire général . Tous considèrent les observations à la somme d'un modèle (ajustement) et un résidu (erreur) à minimiser.

Le test de Kruskal-Wallis et le test de Friedman sont non paramétriques tests, qui ne reposent pas sur une hypothèse de normalité.

Connexion à régression linéaire

Ci - dessous , nous précisons alors la connexion entre plusieurs voies ANOVA et régression linéaire. Linéaire réorganiser les données de telle sorte que l' observation est associée à une réponse et des facteurs où représente les différents facteurs et est le nombre total de facteurs. Dans un ANOVA et ANOVA à deux voies . De plus, nous supposons que le facteur a des niveaux, à savoir . Maintenant, nous pouvons un chaud encode les facteurs dans le vecteur de dimension .

La fonction de codage d' un chaud est définie de telle sorte que l' entrée de est

Le vecteur est la concaténation de tous les vecteurs ci - dessus pour tous . Ainsi, . Afin d'obtenir un pleinement général ANOVA d'interaction -way nous devons aussi concaténer tous les termes d'interaction supplémentaire dans le vecteur , puis ajouter un terme d'interception. Que ce vecteur soit .

Avec cette notation en place, nous avons maintenant la connexion exacte avec la régression linéaire. Nous régressons simplement une réponse contre le vecteur . Cependant, il y a une préoccupation au sujet identifiabilité. Afin de surmonter ces problèmes , nous supposons que la somme des paramètres de chaque ensemble d'interactions est égal à zéro. A partir de là, on peut utiliser F -statistiques ou d' autres méthodes pour déterminer la pertinence des facteurs individuels.

Exemple

On peut considérer l'exemple d'interaction 2 voies où nous supposons que le premier facteur a 2 niveaux et le second facteur a 3 niveaux.

Définir si et si , à savoir le codage d' un chaud du premier facteur et est le codage d' un chaud du second facteur.

Avec ça,

où le dernier terme est un terme d'interception. Pour un exemple plus concret supposons que
Ensuite,

Voir également

notes

Remarques

Références

Pour en savoir plus

  • Box, G. ep (1953). "Non-Normalité et Tests sur Variances". Biometrika . 40 (3/4): 318-335. doi : 10.1093 / BIOMET / 40,3 à 4,318 . JSTOR  2333350 .
  • Box, GEP (1954). « Quelques Theorems sur les formes quadratiques appliquées dans l'étude de l' analyse de la variance Problèmes, I. Effet de l' inégalité de la variance dans la classification à sens unique ». Les Annales de la statistique mathématique . 25 (2): 290. doi : 10,1214 / CG / 1177728786 .
  • Box, GEP (1954). « Quelques Theorems sur les formes quadratiques appliquées dans l'étude de l' analyse de la variance Problèmes, II. Effets de l' inégalité de la variance et de corrélation entre les erreurs dans la classification à deux voies ». Les Annales de la statistique mathématique . 25 (3): 484. doi : 10,1214 / CG / 1177728717 .
  • Calinski, Tadeusz; Kageyama, Sanpei (2000). Conceptions de bloc: Une approche Aléa, Volume I : Analyse . Notes de cours dans les statistiques. 150 . New York: Springer-Verlag. ISBN  978-0-387-98578-7 .
  • Christensen, Ronald (2002). Réponses d'avion aux questions complexes: La théorie des modèles linéaires (ed troisième.). New York: Springer. ISBN  978-0-387-95361-8 .
  • Cox, David R. & Reid, Nancy M. (2000). La théorie de la conception des expériences . (Chapman & Hall / CRC). ISBN  978-1-58488-195-7
  • Fisher, Ronald (1918). « Des études en Variation des cultures. I. Un examen du rendement des grains vêtus de Broadbalk » (PDF) . Journal of Agricultural Science . 11 (2): 107-135. doi : 10.1017 / S0021859600003750 . hdl : 2440/15170 . Archivé de l'original (PDF) le 12 Juin 2001.
  • Freedman, David A. ; Pisani, Robert; Purves, Roger (2007) Statistiques , 4e édition. WW Norton & Company ISBN  978-0-393-92972-0
  • Hettmansperger, TP; McKean, JW (1998). Edward Arnold, éd. Méthodes statistiques solides non paramétriques . Bibliothèque de Kendall de la statistique. Volume 5 (première éd.). New York: John Wiley & Sons, Inc. pp xiv + 467 pp.. ISBN  978-0-340-54937-7 . M.  1604954 .
  • Lentner, Marvin; Thomas Bishop (1993). Conception et analyse expérimentale (deuxième éd.). PO Box 884, Blacksburg, VA 24063: Valley Book Company. ISBN  978-0-9616255-2-8 .
  • Tabachnick, Barbara G. & Fidell, Linda S. (2007). En utilisant les statistiques multivariées (5e éd.). Boston: Pearson International Edition. ISBN  978-0-205-45938-4
  • Wichura, Michael J. (2006). L'approche libre coordonnée aux modèles linéaires . Cambridge Série en mathématiques statistiques et probabilistes. Cambridge: Cambridge University Press. pp. xiv + 199. ISBN  978-0-521-86842-6 . M.  2283455 .
  • Phadke, Madhav S. (1989). Ingénierie Qualité robuste en utilisant la conception . New Jersey: Prentice Hall PTR. ISBN  978-0-13-745167-8 .

Liens externes