Erreurs et résidus - Errors and residuals

En statistiques et en optimisation , les erreurs et les résidus sont deux mesures étroitement liées et facilement confondues de l' écart d'une valeur observée d'un élément d'un échantillon statistique par rapport à sa "valeur théorique". L' erreur (ou la perturbation ) d'une valeur observée est l'écart de la valeur observée par rapport à la valeur vraie (non observable) d'une quantité d'intérêt (par exemple, une moyenne de population ), et le résidu d'une valeur observée est la différence entre le valeur observée et la valeur estimée de la quantité d'intérêt (par exemple, une moyenne d'échantillon ). La distinction est la plus importante dans l' analyse de régression , où les concepts sont parfois appelés les erreurs de régression et des résidus de régression et où ils conduisent à la notion de résidus studentisés .

introduction

Supposons qu'il existe une série d'observations à partir d'une distribution univariée et que nous voulions estimer la moyenne de cette distribution (le modèle de localisation ). Dans ce cas, les erreurs sont les écarts des observations par rapport à la moyenne de la population, tandis que les résidus sont les écarts des observations par rapport à la moyenne de l'échantillon.

Une erreur statistique (ou perturbation ) est la quantité par laquelle une observation diffère de sa valeur attendue , cette dernière étant basée sur l'ensemble de la population à partir de laquelle l'unité statistique a été choisie au hasard. Par exemple, si la taille moyenne d'une population d'hommes de 21 ans est de 1,75 mètre et qu'un homme choisi au hasard mesure 1,80 mètre, alors l'« erreur » est de 0,05 mètre ; si l'homme choisi au hasard mesure 1,70 mètre, alors "l'erreur" est de -0,05 mètre. La valeur attendue, étant la moyenne de l'ensemble de la population, est généralement inobservable et, par conséquent, l'erreur statistique ne peut pas non plus être observée.

Un résidu (ou écart d'ajustement), en revanche, est une estimation observable de l'erreur statistique non observable. Considérons l'exemple précédent avec la taille des hommes et supposons que nous ayons un échantillon aléatoire de n personnes. La moyenne de l'échantillon pourrait être un bon estimateur de la moyenne de la population . Ensuite nous avons:

  • La différence entre la taille de chaque homme de l' échantillon et la moyenne de la population non observable est une erreur statistique , alors que
  • La différence entre la taille de chaque homme de l'échantillon et la moyenne de l' échantillon observable est un résidu .

Notez qu'en raison de la définition de la moyenne de l'échantillon, la somme des résidus au sein d'un échantillon aléatoire est nécessairement nulle, et donc les résidus ne sont pas nécessairement indépendants . Les erreurs statistiques, en revanche, sont indépendantes et leur somme au sein de l'échantillon aléatoire n'est presque certainement pas nulle.

On peut normaliser les erreurs statistiques (en particulier d'une distribution normale ) dans un z-score (ou "score standard"), et normaliser les résidus dans une statistique t , ou plus généralement des résidus studentisés .

Dans les distributions univariées

Si nous supposons une population normalement distribuée avec une moyenne μ et un écart type σ, et choisissons les individus indépendamment, alors nous avons

et la moyenne de l' échantillon

est une variable aléatoire distribuée telle que :

Les erreurs statistiques sont alors

avec des valeurs attendues de zéro, alors que les résidus sont

La somme des carrés des erreurs statistiques , divisée par σ 2 , a une distribution chi-carré avec n degrés de liberté :

Cependant, cette quantité n'est pas observable car la moyenne de la population est inconnue. La somme des carrés des résidus , en revanche, est observable. Le quotient de cette somme par σ 2 a une distribution chi-carré avec seulement n  − 1 degrés de liberté :

Cette différence entre n et n  − 1 degré de liberté entraîne la correction de Bessel pour l'estimation de la variance d'échantillon d'une population avec une moyenne et une variance inconnues. Aucune correction n'est nécessaire si la moyenne de la population est connue.

Remarque

Il est remarquable que la somme des carrés des résidus et la moyenne de l'échantillon puissent être montrées indépendantes l'une de l'autre, en utilisant, par exemple, le théorème de Basu . Ce fait, et les distributions normale et chi carré données ci-dessus forment la base des calculs impliquant la statistique t :

où représente les erreurs, représente l'écart type d' échantillon pour un échantillon de taille n , et inconnue σ , et le terme dénominateur représente l'écart - type des erreurs en fonction de:

Les distributions de probabilité du numérateur et du dénominateur dépendent séparément de la valeur de l'écart type de population non observable σ , mais σ apparaît à la fois dans le numérateur et le dénominateur et s'annule. C'est une chance car cela signifie que même si nous ne connaissons pas  σ , nous connaissons la distribution de probabilité de ce quotient : il a une distribution t de Student avec n  − 1 degrés de liberté. On peut donc utiliser ce quotient pour trouver un intervalle de confiance pour  μ . Cette statistique t peut être interprétée comme « le nombre d'erreurs standard loin de la ligne de régression ».

Régressions

Dans l'analyse de régression , la distinction entre les erreurs et les résidus est subtile et importante, et conduit au concept de résidus studentisés . Étant donné une fonction non observable qui relie la variable indépendante à la variable dépendante - disons, une ligne - les écarts des observations de la variable dépendante par rapport à cette fonction sont les erreurs non observables. Si l'on effectue une régression sur certaines données, les écarts des observations de la variable dépendante par rapport à la fonction ajustée sont les résidus. Si le modèle linéaire est applicable, un nuage de points des résidus tracés par rapport à la variable indépendante doit être aléatoire autour de zéro sans tendance aux résidus. Si les données présentent une tendance, le modèle de régression est probablement incorrect ; par exemple, la vraie fonction peut être un polynôme d'ordre quadratique ou supérieur. S'ils sont aléatoires ou n'ont pas de tendance, mais qu'ils "s'étendent", ils présentent un phénomène appelé hétéroscédasticité . Si tous les résidus sont égaux ou ne se déploient pas, ils présentent une homoscédasticité .

Cependant, une différence terminologique apparaît dans l'expression erreur quadratique moyenne (MSE). L'erreur quadratique moyenne d'une régression est un nombre calculé à partir de la somme des carrés des résidus calculés , et non des erreurs non observables . Si cette somme des carrés est divisée par n , le nombre d'observations, le résultat est la moyenne des carrés des résidus. Puisqu'il s'agit d'une estimation biaisée de la variance des erreurs non observées, le biais est supprimé en divisant la somme des carrés des résidus par df = n  −  p  − 1, au lieu de n , où df est le nombre de degrés de liberté ( n moins le nombre de paramètres (à l'exclusion de l'interception) p estimé - 1). Cela forme une estimation non biaisée de la variance des erreurs non observées et est appelée erreur quadratique moyenne.

Une autre méthode pour calculer le carré moyen de l'erreur lors de l'analyse de la variance de la régression linéaire à l'aide d'une technique comme celle utilisée dans l' ANOVA (ce sont les mêmes car l'ANOVA est un type de régression), la somme des carrés des résidus (aka somme des carrés de l'erreur) est divisé par les degrés de liberté (où les degrés de liberté sont égaux à n  −  p  − 1, où p est le nombre de paramètres estimés dans le modèle (un pour chaque variable de l'équation de régression, sans inclure l'interception) ). On peut alors aussi calculer le carré moyen du modèle en divisant la somme des carrés du modèle moins les degrés de liberté, qui est juste le nombre de paramètres. Ensuite, la valeur F peut être calculée en divisant le carré moyen du modèle par le carré moyen de l'erreur, et nous pouvons alors déterminer la signification (c'est pourquoi vous voulez commencer par les carrés moyens).

Cependant, en raison du comportement du processus de régression, les distributions des résidus à différents points de données (de la variable d'entrée) peuvent varier même si les erreurs elles-mêmes sont distribuées de manière identique. Concrètement, dans une régression linéaire où les erreurs sont distribuées de manière identique, la variabilité des résidus des entrées au milieu du domaine sera plus élevée que la variabilité des résidus aux extrémités du domaine : les régressions linéaires s'ajustent mieux aux extrémités qu'au milieu. Cela se reflète également dans les fonctions d'influence de divers points de données sur les coefficients de régression : les points finaux ont plus d'influence.

Ainsi, pour comparer les résidus à différentes entrées, il faut ajuster les résidus par la variabilité attendue des résidus, ce qui est appelé studentizing . Ceci est particulièrement important dans le cas de la détection de valeurs aberrantes , où le cas en question est en quelque sorte différent de l'autre dans un ensemble de données. Par exemple, un résidu important peut être attendu au milieu du domaine, mais considéré comme une valeur aberrante à la fin du domaine.

Autres utilisations du mot "erreur" dans les statistiques

L'utilisation du terme « erreur » tel que discuté dans les sections ci-dessus est dans le sens d'un écart d'une valeur par rapport à une valeur hypothétique non observée. Au moins deux autres utilisations se produisent également dans les statistiques, faisant toutes deux référence à des erreurs de prédiction observables :

L' erreur quadratique moyenne (EQM) fait référence à la quantité par laquelle les valeurs prédites par un estimateur diffèrent des quantités estimées (généralement en dehors de l'échantillon à partir duquel le modèle a été estimé). L' erreur quadratique moyenne (RMSE) est la racine carrée de MSE. La somme des carrés des erreurs (SSE) est la MSE multipliée par la taille de l'échantillon.

La somme des carrés des résidus (SSR) est la somme des carrés des écarts des valeurs réelles par rapport aux valeurs prédites, au sein de l'échantillon utilisé pour l'estimation. C'est la base de l'estimationdes moindres carrés , où les coefficients de régression sont choisis de telle sorte que le SSR soit minimal (c'est-à-dire que sa dérivée est nulle).

De même, la somme des erreurs absolues (SAE) est la somme des valeurs absolues des résidus, qui est minimisée dans l' approche des moindres écarts absolus de la régression.

L' erreur moyenne (ME) est le biais . Le résidu moyen (MR) est toujours nul pour les estimateurs par les moindres carrés.

Voir également

Les références

Liens externes