La correction de Bessel - Bessel's correction

En statistique , la correction de Bessel est l'utilisation de n  − 1 au lieu de n dans la formule de la variance de l' échantillon et de l' écart-type de l'échantillon , où n est le nombre d'observations dans un échantillon . Cette méthode corrige le biais dans l'estimation de la variance de la population. Il corrige également en partie le biais dans l'estimation de l'écart type de la population. Cependant, la correction augmente souvent l' erreur quadratique moyenne dans ces estimations. Cette technique porte le nom de Friedrich Bessel .

Lors de l' estimation de la variance de la population à partir d'un échantillon lorsque la moyenne de la population est inconnue, la variance de l'échantillon non corrigée est la moyenne des carrés des écarts des valeurs de l'échantillon par rapport à la moyenne de l'échantillon (c'est-à-dire en utilisant un facteur multiplicatif 1/ n ). Dans ce cas, la variance de l'échantillon est un estimateur biaisé de la variance de la population.

Multiplier la variance de l'échantillon non corrigée par le facteur

donne un estimateur sans biais de la variance de la population. Dans certaines publications, le facteur ci-dessus est appelé correction de Bessel .

On peut comprendre la correction de Bessel que les degrés de liberté dans les résidus vecteur (résidus, pas des erreurs, parce que la moyenne de la population est inconnue):

où est la moyenne de l'échantillon. Bien qu'il y ait n observations indépendantes dans l'échantillon, il n'y a que n  − 1 résidus indépendants, car leur somme est égale à 0. Pour une explication plus intuitive de la nécessité de la correction de Bessel, voir § Source de biais .

En général, la correction de Bessel est une approche pour réduire le biais dû à la taille d'échantillon finie. Une telle correction du biais pour échantillon fini est également nécessaire pour d'autres estimations telles que l' asymétrie et l' aplatissement , mais dans celles-ci, les inexactitudes sont souvent beaucoup plus importantes. Pour supprimer complètement un tel biais, il est nécessaire de faire une estimation multi-paramètres plus complexe. Par exemple, une correction correcte de l'écart type dépend du kurtosis (quatrième moment central normalisé), mais cela a encore un biais d'échantillon fini et dépend de l'écart type, c'est-à-dire que les deux estimations doivent être fusionnées.

Mises en garde

Il y a trois mises en garde à considérer concernant la correction de Bessel :

  1. Il ne produit pas d'estimateur sans biais de l'écart- type .
  2. L'estimateur corrigé a souvent une erreur quadratique moyenne (EQM) plus élevée que l'estimateur non corrigé. De plus, il n'y a pas de distribution de population pour laquelle il a la MSE minimale car un facteur d'échelle différent peut toujours être choisi pour minimiser la MSE.
  3. Elle n'est nécessaire que lorsque la moyenne de la population est inconnue (et estimée comme la moyenne de l'échantillon). En pratique, cela se produit généralement.

Premièrement, alors que la variance de l'échantillon (en utilisant la correction de Bessel) est un estimateur sans biais de la variance de la population, sa racine carrée , l'écart type de l'échantillon, est une estimation biaisée de l'écart type de la population ; parce que la racine carrée est une fonction concave , le biais est à la baisse, par l'inégalité de Jensen . Il n'y a pas de formule générale pour un estimateur sans biais de l'écart type de la population, bien qu'il existe des facteurs de correction pour des distributions particulières, telles que la normale ; voir l' estimation sans biais de l'écart type pour plus de détails. Une approximation du facteur de correction exact pour la distribution normale est donnée en utilisant n  − 1,5 dans la formule : le biais décroît quadratiquement (plutôt que linéairement, comme dans la forme non corrigée et la forme corrigée de Bessel).

Deuxièmement, l'estimateur sans biais ne minimise pas l'erreur quadratique moyenne (EQM) et a généralement une EQM pire que l'estimateur non corrigé (cela varie avec l' excès de kurtosis ). La MSE peut être minimisée en utilisant un facteur différent. La valeur optimale dépend de l'excès de kurtosis, comme discuté dans l' erreur quadratique moyenne : variance ; pour la distribution normale, cela est optimisé en divisant par n  + 1 (au lieu de n  − 1 ou n ).

Troisièmement, la correction de Bessel n'est nécessaire que lorsque la moyenne de la population est inconnue et que l'on estime à la fois la moyenne de la population et la variance de la population à partir d'un échantillon donné, en utilisant la moyenne de l'échantillon pour estimer la moyenne de la population. Dans ce cas, il y a n degrés de liberté dans un échantillon de n points, et l'estimation simultanée de la moyenne et de la variance signifie qu'un degré de liberté va à la moyenne de l'échantillon et les n  − 1 degrés de liberté restants (les résidus ) vont à l'échantillon variance. Cependant, si la moyenne de la population est connue, alors les écarts des observations par rapport à la moyenne de la population ont n degrés de liberté (car la moyenne n'est pas estimée - les écarts ne sont pas des résidus mais des erreurs ) et la correction de Bessel n'est pas applicable.

Source de biais

Plus simplement, pour comprendre le biais à corriger, pensez à un cas extrême. Supposons que la population est (0,0,0,1,2,9), qui a une moyenne de population de 2 et une variance de population de 10 1/3. Un échantillon de n = 1 est tiré, et il s'avère être La meilleure estimation de la moyenne de la population est Mais et si nous utilisions la formule pour estimer la variance ? L'estimation de la variance serait nulle --- et l'estimation serait nulle pour toute population et tout échantillon de n = 1. Le problème est qu'en estimant la moyenne de l'échantillon, le processus a déjà rendu notre estimation de la moyenne proche de la valeur que nous avons échantillonnée - identique, pour n = 1. Dans le cas de n = 1, la variance ne peut tout simplement pas être estimée, car il n'y a pas de variabilité dans l'échantillon.

Mais considérons n = 2. Supposons que l'échantillon soit (0, 2). Alors et , mais avec la correction de Bessel, , qui est une estimation non biaisée (si tous les échantillons possibles de n = 2 sont pris et que cette méthode est utilisée, l'estimation moyenne sera de 12,4, identique à la variance de l'échantillon avec la correction de Bessel.)

Pour voir cela plus en détail, considérons l'exemple suivant. Supposons que la moyenne de l'ensemble de la population soit 2050, mais que le statisticien ne le sache pas et doit l'estimer sur la base de ce petit échantillon choisi au hasard dans la population :

On peut calculer la moyenne de l'échantillon :

Cela peut servir d'estimation observable de la moyenne de la population non observable, qui est 2050. Nous sommes maintenant confrontés au problème de l'estimation de la variance de la population. C'est la moyenne des carrés des écarts par rapport à 2050. Si on savait que la moyenne de la population est de 2050, on pourrait procéder comme suit :

Mais notre estimation de la moyenne de la population est la moyenne de l'échantillon, 2052. La moyenne réelle, 2050, est inconnue. Ainsi, la moyenne de l'échantillon, 2052, doit être utilisée :

La variance est maintenant beaucoup plus petite. Comme démontré ci-dessous, la variance sera presque toujours plus petite lorsqu'elle est calculée à l'aide de la somme des carrés des distances à la moyenne de l'échantillon, par rapport à l'utilisation de la somme des carrés des distances à la moyenne de la population. La seule exception à cette règle est lorsque la moyenne de l'échantillon est égale à la moyenne de la population, auquel cas la variance est également égale.

Pour voir pourquoi cela se produit, nous utilisons une identité simple en algèbre :

Avec représentant l'écart d'un échantillon individuel par rapport à la moyenne de l'échantillon et représentant l'écart de la moyenne de l'échantillon par rapport à la moyenne de la population. Notez que nous avons simplement décomposé l'écart réel d'un échantillon individuel par rapport à la moyenne (inconnue) de la population en deux composants : l'écart de l'échantillon unique par rapport à la moyenne de l'échantillon, que nous pouvons calculer, et l'écart supplémentaire de la moyenne de l'échantillon par rapport à la population signifie, ce que nous ne pouvons pas. Maintenant, nous appliquons cette identité aux carrés des écarts par rapport à la moyenne de la population :

Appliquez maintenant ceci aux cinq observations et observez certains modèles :

La somme des entrées dans la colonne du milieu doit être nulle car le terme a sera ajouté sur les 5 lignes, qui lui-même doit être égal à zéro. En effet, a contient les 5 échantillons individuels (côté gauche entre parenthèses) qui, lorsqu'ils sont ajoutés, ont naturellement la même somme que d'ajouter 5 fois la moyenne d'échantillon de ces 5 nombres (2052). Cela signifie qu'une soustraction de ces deux sommes doit être égale à zéro. Le facteur 2 et le terme b dans la colonne du milieu sont égaux pour toutes les lignes, ce qui signifie que la différence relative entre toutes les lignes de la colonne du milieu reste la même et peut donc être ignorée. Les déclarations suivantes expliquent la signification des colonnes restantes :

  • La somme des entrées de la première colonne ( a 2 ) est la somme des carrés de la distance entre l'échantillon et la moyenne de l'échantillon ;
  • La somme des entrées dans la dernière colonne ( b 2 ) est la somme des carrés des distances entre la moyenne de l'échantillon mesurée et la moyenne correcte de la population
  • Chaque ligne se compose désormais de paires de a 2 (biaisé, car la moyenne de l'échantillon est utilisée) et b 2 (correction du biais, car elle tient compte de la différence entre la moyenne de la population "réelle" et la moyenne de l'échantillon inexacte). Par conséquent, la somme de toutes les entrées de la première et de la dernière colonne représente maintenant la variance correcte, ce qui signifie que maintenant la somme de la distance au carré entre les échantillons et la moyenne de la population est utilisée
  • La somme des a 2 -column et b 2 -column doit être plus grand que la somme dans les entrées de la une 2 -column, puisque toutes les entrées dans le b 2 -column sont positifs (sauf quand la moyenne de la population est le même comme moyenne de l'échantillon, auquel cas tous les nombres de la dernière colonne seront 0).

Par conséquent:

  • La somme des carrés de la distance entre les échantillons et la moyenne de la population sera toujours supérieure à la somme des carrés de la distance jusqu'à la moyenne de l' échantillon , sauf lorsque la moyenne de l'échantillon est la même que la moyenne de la population, auquel cas les deux sont égaux.

C'est pourquoi la somme des carrés des écarts par rapport à la moyenne de l' échantillon est trop petite pour donner une estimation non biaisée de la variance de la population lorsque la moyenne de ces carrés est trouvée. Plus la taille de l'échantillon est petite, plus la différence entre la variance de l'échantillon et la variance de la population est grande.

Terminologie

Cette correction est si courante que les termes « variance d'échantillon » et « écart-type d'échantillon » sont fréquemment utilisés pour désigner les estimateurs corrigés (variation d'échantillon non biaisée, écart-type d'échantillon moins biaisé), en utilisant n  − 1. Cependant, la prudence est de mise : certaines calculatrices et les progiciels peuvent fournir les deux ou seulement la formulation la plus inhabituelle. Cet article utilise les symboles et définitions suivants :

  • μ est la moyenne de la population
  • est la moyenne de l'échantillon
  • σ 2 est la variance de la population
  • s n 2 est la variance de l'échantillon biaisée (c'est-à-dire sans la correction de Bessel)
  • s 2 est la variance d'échantillon sans biais (c'est-à-dire avec la correction de Bessel)

Les écarts types seront alors les racines carrées des variances respectives. Puisque la racine carrée introduit un biais, la terminologie « non corrigée » et « corrigée » est préférée pour les estimateurs de l'écart-type :

  • s n est l'écart type de l'échantillon non corrigé (c'est-à-dire sans la correction de Bessel)
  • s est l'écart type de l'échantillon corrigé (c'est-à-dire avec la correction de Bessel), qui est moins biaisé, mais toujours biaisé

Formule

La moyenne de l'échantillon est donnée par

La variance d'échantillon biaisée s'écrit alors :

et la variance d'échantillon sans biais s'écrit :

Preuve d'exactitude

Variante 1

Comme fait de fond, nous utilisons l'identité qui découle de la définition de l'écart type et de la linéarité de l'espérance .

Une observation très utile est que pour toute distribution, la variance est égale à la moitié de la valeur attendue de quand sont un échantillon indépendant de cette distribution. Pour prouver cette observation, nous utiliserons cela (qui découle du fait qu'ils sont indépendants) ainsi que la linéarité de l'espérance :

Maintenant que l'observation est prouvée, il suffit de montrer que la différence au carré attendue de deux observations de la population de l'échantillon est égale à la différence au carré attendue de deux observations de la distribution d'origine. Pour voir cela, notez que lorsque nous choisissons et via u , v étant des entiers sélectionnés indépendamment et uniformément de 1 à n , une fraction du temps nous aurons u  =  v et donc la différence au carré échantillonnée est nulle indépendamment de la distribution d'origine. Le reste du temps, la valeur de est la différence au carré attendue entre deux observations indépendantes de la distribution d'origine. Par conséquent, la division de la différence au carré attendue de l'échantillon par , ou la multiplication équivalente par donne une estimation non biaisée de la différence au carré attendue d'origine.

Variante 2

Recycler une identité pour la variance ,

donc

et par définition,

Notez que, puisque x 1x 2 , …,  x n sont un échantillon aléatoire d'une distribution de variance σ 2 , il s'ensuit que pour chaque i  = 1, 2, …,  n :

et aussi

C'est une propriété de la variance des variables non corrélées, issue de la formule de Bienaymé . Le résultat recherché est alors obtenu en substituant ces deux formules :

Variante 3

L'écart attendu entre l'estimateur biaisé et la vraie variance est

Ainsi, la valeur attendue de l'estimateur biaisé sera

Ainsi, un estimateur sans biais doit être donné par

Intuition

Dans l'estimateur biaisé, en utilisant la moyenne de l'échantillon au lieu de la vraie moyenne, vous sous-estimez chaque x i  −  µ de x  −  µ . On sait que la variance d'une somme est la somme des variances (pour les variables non corrélées). Donc, pour trouver l'écart entre l'estimateur biaisé et la vraie variance, il suffit de trouver la valeur attendue de ( x  −  µ ) 2 .

Il s'agit simplement de la variance de la moyenne de l'échantillon , qui est σ 2 / n . Ainsi, nous nous attendons à ce que l'estimateur biaisé sous-estime σ 2 de σ 2 / n , et donc l'estimateur biaisé = (1 − 1/ n ) × l'estimateur sans biais = ( n  − 1)/n × l'estimateur sans biais.

Voir également

Remarques

Liens externes