ANOVA - analyse simultanée des composants - ANOVA–simultaneous component analysis

Analyse de la variance - L'analyse simultanée des composantes ( ASCA ou ANOVA – SCA ) est une méthode qui partitionne la variation et permet l'interprétation de ces partitions par SCA, une méthode similaire à l' analyse en composantes principales (ACP) . Cette méthode est une extension multivariée voire mégavariée de l' analyse de variance (ANOVA) . Le partitionnement des variations est similaire à l'ANOVA. Chaque partition correspond à toutes les variations induites par un effet ou un facteur , généralement un régime de traitement ou une condition expérimentale. Les partitions d'effet calculées sont appelées estimations d'effet. Étant donné que même les estimations des effets sont multivariées, l'interprétation de ces estimations des effets n'est pas intuitive. En appliquant SCA aux estimations d'effet, on obtient un résultat interprétable simple. En cas de plusieurs effets, cette méthode estime les effets de telle sorte que les différents effets ne sont pas corrélés.

Détails

De nombreux domaines de recherche voient un nombre de plus en plus grand de variables dans quelques échantillons seulement . Le faible rapport échantillon / variable crée des problèmes connus sous le nom de multicolinéarité et de singularité . Pour cette raison, la plupart des méthodes statistiques multivariées traditionnelles ne peuvent pas être appliquées.

Algorithme ASCA

Cette section détaille comment calculer le modèle ASCA sur un cas de deux effets principaux avec un effet d'interaction. Il est facile d'étendre la justification déclarée à davantage d'effets principaux et à davantage d'effets d'interaction. Si le premier effet est le temps et le second effet est le dosage, seule l'interaction entre le temps et la posologie existe. Nous supposons qu'il existe quatre moments et trois niveaux de dosage.

Soit X une matrice contenant les données. X est centré sur la moyenne, ayant donc zéro colonne moyenne . Soit A et B les effets principaux et AB l'interaction de ces effets. Deux effets principaux dans une expérience biologique peuvent être le temps (A) et le pH (B), et ces deux effets peuvent interagir. En concevant de telles expériences, on contrôle les effets principaux à plusieurs (au moins deux) niveaux. Les différents niveaux d'un effet peuvent être appelés A1, A2, A3 et A4, représentant 2, 3, 4, 5 heures à partir du début de l'expérience. La même chose vaut pour l'effet B, par exemple, pH 6, pH 7 et pH 8 peuvent être considérés comme des niveaux d'effet.

A et B doivent être équilibrés si les estimations d'effet doivent être orthogonales et le partitionnement unique. La matrice E contient les informations qui ne sont affectées à aucun effet. Le partitionnement donne la notation suivante:

Calcul de l'estimation de l'effet principal A (ou B)

Trouvez toutes les lignes qui correspondent à l'effet A niveau 1 et faites la moyenne de ces lignes. Le résultat est un vecteur . Répétez cette opération pour les autres niveaux d'effet. Créez une nouvelle matrice de la même taille que X et placez les moyennes calculées dans les lignes correspondantes. Autrement dit, donnez à toutes les lignes qui correspondent à l'effet (c.-à-d.) A niveau 1 la moyenne de l'effet A niveau 1. Après avoir terminé les estimations de niveau pour l'effet, effectuez une SCA. Les scores de ce SCA sont les écarts de l'échantillon pour l'effet, les variables importantes de cet effet sont dans les poids du vecteur de chargement SCA.

Calcul de l'estimation de l'effet d'interaction AB

L'estimation de l'effet d'interaction est similaire à l'estimation des effets principaux. La différence est que pour les estimations d'interaction, les lignes qui correspondent à l'effet A niveau 1 sont combinées avec l'effet B niveau 1 et toutes les combinaisons d'effets et de niveaux sont répétées. Dans notre exemple de configuration, avec quatre points dans le temps et trois niveaux de dosage, il y a 12 ensembles d'interaction {A1-B1, A1B2, A2B1, A2B2 et ainsi de suite}. Il est important de dégonfler (supprimer) les principaux effets avant d'estimer l'effet d'interaction.

SCA sur les partitions A, B et AB

L'analyse simultanée des composants est mathématiquement identique à l'ACP, mais est sémantiquement différente en ce qu'elle modélise différents objets ou sujets en même temps. La notation standard pour un modèle SCA - et PCA - est:

X est les données, T les scores des composants et P les charges des composants. E est la matrice résiduelle ou d'erreur . Étant donné que ASCA modélise les partitions de variation par SCA, le modèle d'estimation des effets ressemble à ceci:

Notez que chaque partition a sa propre matrice d'erreur. Cependant, l'algèbre dicte que dans un ensemble de données centrées sur une moyenne équilibrée, chaque système à deux niveaux est de rang 1. Il en résulte zéro erreur, car toute matrice de rang 1 peut être écrite comme le produit d'un score de composant unique et d'un vecteur de chargement.

Le modèle ASCA complet avec deux effets et une interaction, y compris le SCA, ressemble à ceci:

Décomposition:

Le temps comme effet

Comme le «temps» est traité comme un facteur qualitatif dans la décomposition ANOVA précédant ASCA, une trajectoire temporelle multivariée non linéaire peut être modélisée. Un exemple de ceci est montré sur la figure 10 de cette référence.

Les références