Partition de sommes de carrés - Partition of sums of squares

La partition de sommes de carrés est un concept qui imprègne une grande partie des statistiques inférentielles et des statistiques descriptives . Plus exactement, c'est le partitionnement de sommes d' écarts ou d'erreurs au carré . Mathématiquement, la somme des écarts au carré est une mesure de dispersion non mise à l'échelle ou non ajustée (également appelée variabilité ). Lorsqu'il est mis à l'échelle pour le nombre de degrés de liberté , il estime la variance , ou la répartition des observations sur leur valeur moyenne. Le partitionnement de la somme des écarts au carré en diverses composantes permet d'attribuer la variabilité globale d'un ensemble de données à différents types ou sources de variabilité, l'importance relative de chacun étant quantifiée par la taille de chaque composante de la somme globale des carrés.

Fond

La distance entre n'importe quel point d'une collection de données et la moyenne des données est l'écart. Cela peut être écrit comme , où est le ième point de données, et est l'estimation de la moyenne. Si tous ces écarts sont mis au carré, puis additionnés, comme dans , cela donne la "somme des carrés" pour ces données.

Lorsque plus de données sont ajoutées à la collection, la somme des carrés augmentera, sauf dans des cas improbables tels que les nouvelles données étant égales à la moyenne. Donc, généralement, la somme des carrés augmentera avec la taille de la collecte de données. C'est une manifestation du fait qu'il n'est pas mis à l'échelle.

Dans de nombreux cas, le nombre de degrés de liberté est simplement le nombre de données de la collection, moins un. Nous l'écrivons comme n  − 1, où n est le nombre de données.

La mise à l'échelle (également appelée normalisation) signifie ajuster la somme des carrés afin qu'elle n'augmente pas à mesure que la taille de la collecte de données augmente. Ceci est important lorsque l'on veut comparer des échantillons de tailles différentes, comme un échantillon de 100 personnes par rapport à un échantillon de 20 personnes. Si la somme des carrés n'était pas normalisée, sa valeur serait toujours plus grande pour l'échantillon de 100 personnes que pour l'échantillon de 20 personnes. Pour mettre à l'échelle la somme des carrés, nous la divisons par les degrés de liberté, c'est-à-dire calculons la somme des carrés par degré de liberté, ou variance. L'écart type , à son tour, est la racine carrée de la variance.

Ce qui précède décrit comment la somme des carrés est utilisée dans les statistiques descriptives ; voir l'article sur la somme totale des carrés pour une application de ce principe général aux statistiques inférentielles .

Partitionner la somme des carrés en régression linéaire

Théorème. Étant donné un modèle de régression linéaire incluant une constante , basé sur un échantillon contenant n observations, la somme des carrés totale peut être divisée comme suit en la somme des carrés expliquée (ESS) et la somme des carrés résiduelle (RSS) :

où cette équation est équivalente à chacune des formes suivantes :

où est la valeur estimée par la droite de régression ayant , , ..., comme coefficients estimés .

Preuve

L'exigence que le modèle inclue une constante ou de manière équivalente que la matrice de conception contienne une colonne de uns garantit que , c'est-à-dire .

La preuve peut également être exprimée sous forme vectorielle, comme suit :

L'élimination des termes dans la dernière ligne, a utilisé le fait que

Partitionnement supplémentaire

Notez que la somme des carrés résiduelle peut être divisée en tant que somme des carrés sans ajustement plus la somme des carrés due à une erreur pure.

Voir également

Les références

  • Bailey, RA (2008). Conception d'expériences comparatives . La presse de l'Universite de Cambridge. ISBN 978-0-521-68357-9. Les chapitres de pré-publication sont disponibles en ligne.
  • Christensen, Ronald (2002). Réponses d'avion aux questions complexes : La théorie des modèles linéaires (le troisième rédacteur). New York : Springer. ISBN 0-387-95361-2.
  • Whittle, Peter (1963). Prédiction et régulation . Presse des universités anglaises. ISBN 0-8166-1147-5.
    Republié sous le titre : Whittle, P. (1983). Prédiction et régulation par les méthodes des moindres carrés linéaires . Presse de l'Université du Minnesota. ISBN 0-8166-1148-3.
  • Whittle, P. (20 avril 2000). Probabilité via l'attente (4e éd.). Springer. ISBN 0-387-98955-2.