Somme des carrés non ajustée - Lack-of-fit sum of squares

Dans les statistiques , une somme des carrés en raison du manque d'ajustement , ou plus laconiquement une somme absence d'ajustement des carrés , est l' une des composantes d'une partition de la somme des carrés des résidus dans une analyse de la variance , utilisée dans la numérateur dans un test F de l' hypothèse nulle qui dit qu'un modèle proposé convient bien. L'autre composante est la somme des carrés d'erreur pure .

La somme des carrés des erreurs pures est la somme des carrés des écarts de chaque valeur de la variable dépendante par rapport à la valeur moyenne sur toutes les observations partageant sa ou ses valeurs de variable indépendante . Ce sont des erreurs qui ne pourraient jamais être évitées par une équation prédictive qui attribue une valeur prédite à la variable dépendante en fonction de la ou des valeurs de la ou des variables indépendantes. Le reste de la somme résiduelle des carrés est attribué au manque d'ajustement du modèle puisqu'il serait mathématiquement possible d'éliminer complètement ces erreurs.

Esquisse de l'idée

Pour que la somme des carrés sans ajustement diffère de la somme des carrés des résidus , il doit y avoir plus d'une valeur de la variable de réponse pour au moins une des valeurs de l'ensemble de variables prédictives. Par exemple, envisagez d'ajuster une ligne

par la méthode des moindres carrés . On prend comme estimations de α et β les valeurs qui minimisent la somme des carrés des résidus, c'est-à-dire la somme des carrés des différences entre la valeur y observée et la valeur y ajustée . Pour avoir une somme de carrés sans ajustement qui diffère de la somme résiduelle des carrés, il faut observer plus d'une valeur y pour chacune d'une ou plusieurs des valeurs x . On partitionne alors la «somme des carrés due à l'erreur», c'est-à-dire la somme des carrés des résidus, en deux composantes:

somme des carrés due à une erreur = (somme des carrés due à une erreur "pure") + (somme des carrés due à un manque d'ajustement).

La somme des carrés due à l'erreur «pure» est la somme des carrés des différences entre chaque valeur y observée et la moyenne de toutes les valeurs y correspondant à la même valeur x .

La somme des carrés due au manque d'ajustement est la somme pondérée des carrés des différences entre chaque moyenne des valeurs y correspondant à la même valeur x et la valeur y ajustée correspondante , le poids étant dans chaque cas simplement le nombre de valeurs observées valeurs y pour cette valeur x . Comme c'est une propriété de la régression des moindres carrés que le vecteur dont les composants sont des «erreurs pures» et le vecteur des composants de manque d'ajustement sont orthogonaux l'un par rapport à l'autre, l'égalité suivante est vraie:

Par conséquent, la somme résiduelle des carrés a été complètement décomposée en deux composantes.

Détails mathématiques

Pensez à ajuster une ligne avec une variable prédictive. Définissez i comme un indice de chacune des n valeurs x distinctes , j comme un index des observations de variable de réponse pour une valeur x donnée et n i comme le nombre de valeurs y associées à la i ème valeur x . La valeur de chaque observation de variable de réponse peut être représentée par

Laisser

être les estimations par les moindres carrés des paramètres non observables α et β sur la base des valeurs observées de x i et Y i j .   

Laisser

être les valeurs ajustées de la variable de réponse. Puis

sont les résidus , qui sont des estimations observables des valeurs non observables du terme d'erreur  ε ij . En raison de la nature de la méthode des moindres carrés, l'ensemble du vecteur des résidus, avec  

composants scalaires, satisfait nécessairement les deux contraintes

Il est donc contraint de se trouver dans un  sous-espace ( N - 2) dimensionnel de R N , c'est-à-dire qu'il existe N  - 2 " degrés de liberté pour l'erreur".  

Maintenant, laisse

être la moyenne de toutes les valeurs Y associées à la i ème valeur x .

Nous partitionnons la somme des carrés due à l'erreur en deux composantes:

Distributions de probabilité

Sommes de carrés

Supposons que les termes d'erreur ε i j soient indépendants et normalement distribués avec la valeur attendue  0 et la variance σ 2 . Nous traitons x i comme constant plutôt que comme aléatoire. Alors les variables de réponse Y i j ne sont aléatoires que parce que les erreurs ε i j sont aléatoires.      

On peut montrer que si le modèle linéaire est correct, alors la somme des carrés due à l'erreur divisée par la variance d'erreur,

a une distribution chi-carré avec N  - 2 degrés de liberté.

De plus, étant donné le nombre total d'observations N , le nombre de niveaux de la variable indépendante n et le nombre de paramètres dans le modèle p :

  • La somme des carrés due à l'erreur pure, divisée par la variance d'erreur σ 2 , a une distribution chi-carré avec N  -  n degrés de liberté;
  • La somme des carrés due au manque d'ajustement, divisée par la variance d'erreur σ 2 , a une distribution chi-carré avec n  -  p degrés de liberté (ici p  = 2 car il y a deux paramètres dans le modèle linéaire);
  • Les deux sommes de carrés sont probabilistiquement indépendantes.

La statistique de test

Il s'ensuit alors que la statistique

a une distribution F avec le nombre de degrés de liberté correspondant dans le numérateur et le dénominateur, à condition que le modèle soit correct. Si le modèle est erroné, alors la distribution de probabilité du dénominateur est toujours comme indiqué ci-dessus, et le numérateur et le dénominateur sont toujours indépendants. Mais le numérateur a alors une distribution khi-deux non centrale , et par conséquent le quotient dans son ensemble a une distribution F non centrale .

On utilise cette statistique F pour tester l' hypothèse nulle que le modèle linéaire est correct. Puisque la distribution F non centrale est stochastiquement plus grande que la distribution F (centrale), on rejette l'hypothèse nulle si la statistique F est plus grande que la valeur F critique. La valeur critique correspond à la fonction de distribution cumulative de la distribution F avec x égal au niveau de confiance souhaité et les degrés de liberté d 1  = ( n  -  p ) et d 2  = ( N  -  n ).

On peut montrer que les hypothèses de distribution normale des erreurs et d' indépendance impliquent que ce test de non-ajustement est le test du rapport de vraisemblance de cette hypothèse nulle.

Voir également

Remarques