Biais d'un estimateur - Bias of an estimator

En statistique , le biais (ou fonction de biais ) d'un estimateur est la différence entre la valeur attendue de cet estimateur et la valeur réelle du paramètre estimé. Un estimateur ou une règle de décision avec un biais nul est appelé sans biais . En statistique, le «biais» est une propriété objective d'un estimateur. Le biais peut également être mesuré par rapport à la médiane , plutôt que par rapport à la moyenne (valeur attendue), auquel cas on distingue la médiane - sans biais de la propriété habituelle de moyenne - sans biais. Le biais est un concept distinct de la cohérence . Les estimateurs cohérents convergent en probabilité vers la valeur réelle du paramètre, mais peuvent être biaisés ou sans biais; voir biais contre cohérence pour en savoir plus.

Toutes choses étant égales par ailleurs, un estimateur sans biais est préférable à un estimateur biaisé, bien qu'en pratique, des estimateurs biaisés (avec un biais généralement faible) soient fréquemment utilisés. Lorsqu'un estimateur biaisé est utilisé, les limites du biais sont calculées. Un estimateur biaisé peut être utilisé pour diverses raisons: parce qu'un estimateur sans biais n'existe pas sans d'autres hypothèses sur une population; parce qu'un estimateur est difficile à calculer (comme dans l' estimation sans biais de l'écart type ); parce qu'un estimateur est sans biais par rapport à la médiane mais non sans biais par rapport à la moyenne (ou l'inverse); parce qu'un estimateur biaisé donne une valeur inférieure à une fonction de perte (en particulier l' erreur quadratique moyenne ) par rapport aux estimateurs sans biais (notamment dans les estimateurs de retrait ); ou parce que dans certains cas, être sans biais est une condition trop forte et que les seuls estimateurs sans biais ne sont pas utiles.

En outre, le biais de la moyenne n'est pas préservé sous les transformations non linéaires, bien que le biais de la médiane le soit (voir § Effet des transformations ); par exemple, la variance de l' échantillon est un estimateur biaisé de la variance de la population. Ceux-ci sont tous illustrés ci-dessous.

Définition

Supposons que nous ayons un modèle statistique , paramétré par un nombre réel θ , donnant lieu à une distribution de probabilité pour les données observées , et une statistique qui sert d' estimateur de θ basé sur toute donnée observée . Autrement dit, nous supposons que nos données suivent une distribution inconnue (où θ est une constante fixe et inconnue qui fait partie de cette distribution), puis nous construisons un estimateur qui mappe les données observées à des valeurs que nous espérons proches de θ . Le biais de par rapport à est défini comme

où désigne la valeur attendue sur la distribution (c.-à-d. la moyenne de toutes les observations possibles ). La deuxième équation suit puisque θ est mesurable par rapport à la distribution conditionnelle .

Un estimateur est dit sans biais si son biais est égal à zéro pour toutes les valeurs du paramètre θ , ou de manière équivalente, si la valeur attendue de l'estimateur correspond à celle du paramètre.

Dans une expérience de simulation concernant les propriétés d'un estimateur, le biais de l'estimateur peut être évalué à l'aide de la différence signée moyenne .

Exemples

Échantillon de variance

La variance d'échantillon d'une variable aléatoire démontre deux aspects du biais de l'estimateur: premièrement, l'estimateur naïf est biaisé, ce qui peut être corrigé par un facteur d'échelle; deuxièmement, l'estimateur sans biais n'est pas optimal en termes d' erreur quadratique moyenne (MSE), qui peut être minimisée en utilisant un facteur d'échelle différent, ce qui donne un estimateur biaisé avec une MSE inférieure à l'estimateur sans biais. Concrètement, l'estimateur naïf fait la somme des écarts au carré et divise par n, ce qui est biaisé. En divisant plutôt par n  - 1, on obtient un estimateur sans biais. Inversement, l'EQM peut être minimisée en divisant par un nombre différent (selon la distribution), mais cela se traduit par un estimateur biaisé. Ce nombre est toujours plus grand que n  - 1, c'est donc ce qu'on appelle un estimateur de retrait , car il "rétrécit" l'estimateur sans biais vers zéro; pour la distribution normale, la valeur optimale est n  + 1.

Supposons que X 1 , ..., X n sont des variables aléatoires indépendantes et de distribution identique (iid) avec une espérance μ et une variance σ 2 . Si la moyenne de l' échantillon et la variance non corrigée de l' échantillon sont définies comme

alors S 2 est un estimateur biaisé de σ 2 , car

Pour continuer, nous notons qu'en soustrayant des deux côtés de , on obtient

Signification, (par multiplication croisée) . Ensuite, le précédent devient:

Cela peut être vu en notant la formule suivante, qui découle de la formule Bienaymé , pour la durée de l'inégalité de l'espérance de la variance de l' échantillon ci - dessus non corrigée: .

En d'autres termes, la valeur attendue de la variance de l'échantillon non corrigée n'est pas égale à la variance de la population σ 2 , à moins qu'elle ne soit multipliée par un facteur de normalisation. La moyenne de l'échantillon, par contre, est un estimateur sans biais de la moyenne de la population  μ .

Notez que la définition habituelle de la variance de l'échantillon est , et qu'il s'agit d'un estimateur sans biais de la variance de la population.

Algébriquement parlant, est impartiale parce que:

où la transition vers la deuxième ligne utilise le résultat obtenu ci-dessus pour l'estimateur biaisé. Ainsi , et est donc un estimateur sans biais de la variance de la population, σ 2 . Le rapport entre les estimations biaisées (non corrigées) et non biaisées de la variance est appelé correction de Bessel .

La raison pour laquelle une variance d'échantillon non corrigée, S 2 , est biaisée provient du fait que la moyenne de l'échantillon est un estimateur des moindres carrés ordinaires (MCO) pour μ : est le nombre qui rend la somme aussi petite que possible. Autrement dit, lorsqu'un autre nombre est branché sur cette somme, la somme ne peut qu'augmenter. En particulier, le choix donne,

et alors

La discussion ci-dessus peut être comprise en termes géométriques: le vecteur peut être décomposé en "partie moyenne" et "partie de variance" en projetant vers la direction et vers l'hyperplan de complément orthogonal de cette direction. On obtient pour la partie en long et pour la partie complémentaire. Puisqu'il s'agit d'une décomposition orthogonale, dit le théorème de Pythagore , et en prenant les attentes que nous obtenons , comme ci-dessus (mais fois ). Si la distribution de est symétrique en rotation, comme dans le cas où sont échantillonnés à partir d'un gaussien, alors en moyenne, la dimension le long contribue de la même manière que les directions perpendiculaires à , de sorte que et . C'est en fait vrai en général, comme expliqué ci-dessus.

Estimer une probabilité de Poisson

Un cas beaucoup plus extrême où un estimateur biaisé est meilleur que tout estimateur sans biais découle de la distribution de Poisson . Supposons que X ait une distribution de Poisson d'espérance  λ . Supposons que l'on souhaite estimer

avec un échantillon de taille 1. (Par exemple, lorsque les appels entrants dans un standard téléphonique sont modélisés comme un processus de Poisson, et λ est le nombre moyen d'appels par minute, alors e −2 λ est la probabilité qu'aucun appel n'arrive dans le deux minutes suivantes.)

Puisque l'espérance d'un estimateur sans biais δ ( X ) est égale à l'estimande, c'est-à-dire

la seule fonction des données constituant un estimateur sans biais est

Pour voir cela, notez que lors de la décomposition de e - λ à partir de l'expression ci-dessus pour l'espérance, la somme qui reste est un développement en série de Taylor de e - λ également, donnant e - λ e - λ  = e −2 λ (voir Caractérisations de la fonction exponentielle ).

Si la valeur observée de X est 100, alors l'estimation est 1, bien que la vraie valeur de la quantité estimée soit très probablement proche de 0, ce qui est l'extrême opposé. Et, si on observe que X est 101, alors l'estimation est encore plus absurde: elle vaut −1, bien que la quantité estimée doive être positive.

L' estimateur du maximum de vraisemblance (biaisé)

est bien meilleur que cet estimateur sans biais. Non seulement sa valeur est toujours positive, mais elle est également plus précise en ce sens que son erreur quadratique moyenne

est plus petit; comparer l'EQM de l'estimateur sans biais de

Les MSE sont des fonctions de la vraie valeur  λ . Le biais de l'estimateur du maximum de vraisemblance est:

Maximum d'une distribution uniforme discrète

Le biais des estimateurs du maximum de vraisemblance peut être important. Considérons le cas où n tickets numérotés de 1 jusqu'à n sont placés dans une boîte et une est sélectionnée au hasard, ce qui donne une valeur X . Si n est inconnu, alors l'estimateur du maximum de vraisemblance de n est X , même si l'espérance de X étant donné n est seulement ( n  + 1) / 2; nous pouvons être sûrs seulement que n est au moins X et probablement plus. Dans ce cas, l'estimateur naturel sans biais est 2 X  - 1.

Estimateurs sans biais médian

La théorie des estimateurs sans biais médian a été relancée par George W. Brown en 1947:

Une estimation d'un paramètre unidimensionnel θ sera dite sans biais médian, si, pour θ fixe, la médiane de la distribution de l'estimation est à la valeur θ; c'est-à-dire que l'estimation sous-estime tout aussi souvent qu'elle surestime. Cette exigence semble, dans la plupart des cas, accomplir autant que l'exigence moyenne sans biais et a la propriété supplémentaire qu'elle est invariante sous une transformation un-à-un.

D'autres propriétés des estimateurs sans biais médian ont été notées par Lehmann, Birnbaum, van der Vaart et Pfanzagl. En particulier, des estimateurs sans biais médian existent dans les cas où il n'existe pas d'estimateurs sans biais par moyenne et de maximum de vraisemblance . Ils sont invariants sous les transformations un-à-un .

Il existe des méthodes de construction d'estimateurs sans biais médian pour les distributions de probabilité qui ont des fonctions de vraisemblance monotones , telles que les familles exponentielles à un paramètre, pour s'assurer qu'elles sont optimales (dans un sens analogue à la propriété de variance minimale considérée pour les estimateurs sans biais en moyenne) . Une de ces procédures est un analogue de la procédure de Rao – Blackwell pour les estimateurs sans biais en moyenne: la procédure est valable pour une classe de distributions de probabilité plus petite que la procédure de Rao – Blackwell pour l'estimation sans biais en moyenne, mais pour une classe plus grande de fonctions de perte.

Biais par rapport aux autres fonctions de perte

Tout estimateur sans biais moyen à variance minimale minimise le risque ( perte attendue ) par rapport à la fonction de perte d' erreur quadratique (parmi les estimateurs sans biais moyen), comme observé par Gauss . Un estimateur sans biais médian avec écart absolu moyen minimal minimise le risque par rapport à la fonction de perte absolue (parmi les estimateurs sans biais médian), comme l'observe Laplace . D'autres fonctions de perte sont utilisées dans les statistiques, en particulier dans les statistiques robustes .

Effet des transformations

Comme indiqué ci-dessus, pour les paramètres univariés, les estimateurs sans biais médian restent sans biais dans la médiane sous des transformations qui préservent l'ordre (ou l'ordre inverse).

À noter que, lorsqu'une transformation est appliquée à un estimateur sans biais en moyenne, le résultat n'a pas besoin d'être un estimateur sans biais en moyenne de sa statistique de population correspondante. Par l'inégalité de Jensen , une fonction convexe en tant que transformation introduira un biais positif, tandis qu'une fonction concave introduira un biais négatif, et une fonction de convexité mixte peut introduire un biais dans les deux sens, en fonction de la fonction et de la distribution spécifiques. Autrement dit, pour une fonction non linéaire f et un estimateur sans biais par la moyenne U d'un paramètre p , l'estimateur composite f ( U ) n'a pas besoin d'être un estimateur sans biais par la moyenne de f ( p ). Par exemple, la racine carrée de l'estimateur sans biais de la variance de la population n'est pas un estimateur sans biais par la moyenne de l' écart-type de la population : la racine carrée de la variance de l'échantillon sans biais , l' écart-type de l'échantillon corrigé , est biaisée. Le biais dépend à la fois de la distribution d'échantillonnage de l'estimateur et de la transformée, et peut être assez compliqué pour calculer - voir l' estimation sans biais de l'écart-type pour une discussion dans ce cas.

Biais, variance et erreur quadratique moyenne

Échantillonnage des distributions de deux estimateurs alternatifs pour un paramètre β 0 . Bien que β 1 ^ soit sans biais, il est clairement inférieur au biaisé β 2 ^ .

La régression de crête est un exemple de technique dans laquelle autoriser un léger biais peut conduire à une réduction considérable de la variance et à des estimations plus fiables dans l'ensemble.

Alors que le biais quantifie la différence moyenne à prévoir entre un estimateur et un paramètre sous-jacent, on peut également s'attendre à ce qu'un estimateur basé sur un échantillon fini diffère du paramètre en raison du caractère aléatoire de l'échantillon.

Une mesure utilisée pour essayer de refléter les deux types de différence est l' erreur quadratique moyenne ,

On peut montrer que cela est égal au carré du biais, plus la variance:

Lorsque le paramètre est un vecteur, une décomposition analogue s'applique:

est la trace de la matrice de covariance de l'estimateur.

Un estimateur qui minimise le biais ne minimisera pas nécessairement l'erreur quadratique moyenne.

Exemple: Estimation de la variance de la population

Par exemple, supposons un estimateur de la forme

est recherchée pour la variance de la population comme ci-dessus, mais cette fois pour minimiser l'EQM:

Si les variables X 1 ... X n suivent une distribution normale, alors nS 2 / σ 2 a une distribution chi-carré avec n  - 1 degrés de liberté, ce qui donne:

et donc

Avec un peu d'algèbre, on peut confirmer que c'est c = 1 / ( n  + 1) qui minimise cette fonction de perte combinée, plutôt que c = 1 / ( n  - 1) qui minimise juste le terme de biais.

Plus généralement, ce n'est que dans des classes de problèmes restreintes qu'il y aura un estimateur qui minimise l'EQM indépendamment des valeurs des paramètres.

Cependant, il est très courant que l'on puisse percevoir un compromis biais-variance , de sorte qu'une légère augmentation du biais peut être échangée contre une diminution plus importante de la variance, ce qui donne un estimateur globalement plus souhaitable.

Vue bayésienne

La plupart des bayésiens sont plutôt indifférents au caractère impartial (du moins au sens formel de la théorie d'échantillonnage ci-dessus) de leurs estimations. Par exemple, Gelman et ses coauteurs (1995) écrivent: "D'un point de vue bayésien, le principe du non-biais est raisonnable dans la limite des grands échantillons, mais sinon il est potentiellement trompeur."

Fondamentalement, la différence entre l' approche bayésienne et l'approche de la théorie de l'échantillonnage ci-dessus est que dans l'approche de la théorie de l'échantillonnage, le paramètre est considéré comme fixe, puis les distributions de probabilité d'une statistique sont considérées, sur la base de la distribution d'échantillonnage prévue des données. Pour un bayésien, cependant, ce sont les données qui sont connues et fixées, et c'est le paramètre inconnu pour lequel on tente de construire une distribution de probabilité, en utilisant le théorème de Bayes :

Ici le second terme, la vraisemblance des données étant donné la valeur de paramètre inconnue θ, dépend uniquement des données obtenues et de la modélisation du processus de génération de données. Cependant, un calcul bayésien inclut également le premier terme, la probabilité a priori pour θ, qui tient compte de tout ce que l'analyste peut savoir ou soupçonner à propos de θ avant que les données n'entrent. Cette information ne joue aucun rôle dans l'approche de la théorie de l'échantillonnage; en fait, toute tentative de l'inclure serait considérée comme une "distorsion" par rapport à ce qui était indiqué uniquement par les données. Dans la mesure où les calculs bayésiens incluent des informations préalables, il est donc essentiellement inévitable que leurs résultats ne soient pas «sans biais» en termes de théorie d'échantillonnage.

Mais les résultats d'une approche bayésienne peuvent différer de l'approche de la théorie de l'échantillonnage même si le bayésien essaie d'adopter un a priori «non informatif».

Par exemple, considérons à nouveau l'estimation d'une variance de population inconnue σ 2 d'une distribution normale avec une moyenne inconnue, où l'on souhaite optimiser c dans la fonction de perte attendue

Un choix standard avant uninformative de ce problème est l' avant Jeffreys , qui est équivalente à l' adoption d' un plat antérieur pour mise à l' échelle invariante ln (σ 2 ) .

Une conséquence de l'adoption de cet a priori est que S 2 / σ 2 reste une grandeur pivot , c'est-à-dire que la distribution de probabilité de S 2 / σ 2 ne dépend que de S 2 / σ 2 , indépendamment de la valeur de S 2 ou σ 2 :

Cependant, alors que

en revanche

- lorsque l'espérance est prise sur la distribution de probabilité de σ 2 étant donné S 2 , comme c'est le cas dans le cas bayésien, plutôt que S 2 étant donné σ 2 , on ne peut plus prendre σ 4 comme constante et la factoriser. La conséquence en est que, par rapport au calcul de la théorie de l'échantillonnage, le calcul bayésien accorde plus de poids à des valeurs plus grandes de σ 2 , en prenant correctement en compte (comme le calcul de la théorie de l'échantillonnage ne peut pas) que sous cette fonction de perte au carré la conséquence de sous-estimer de grandes valeurs de σ 2 est plus coûteux en termes de perte au carré que de surestimer de petites valeurs de σ 2 .

Le calcul bayésien élaboré donne une distribution khi-deux inverse mise à l'échelle avec n  - 1 degrés de liberté pour la distribution de probabilité postérieure de σ 2 . La perte attendue est minimisée lorsque cnS 2  = <σ 2 >; cela se produit lorsque c  = 1 / ( n  - 3).

Même avec un a priori non informatif, par conséquent, un calcul bayésien peut ne pas donner le même résultat de minimisation des pertes attendues que le calcul correspondant de la théorie d'échantillonnage.

Voir également

Remarques

Les références

  • Brown, George W. «On Small-Sample Estimation». Les Annales de la statistique mathématique , vol. 18, non. 4 (décembre 1947), pp. 582-585. JSTOR   2236236 .
  • Lehmann, EL "Un concept général d'impartialité" Les Annales de la statistique mathématique , vol. 22, non. 4 (décembre 1951), pp. 587-592. JSTOR   2236928 .
  • Allan Birnbaum , 1961. "Une théorie unifiée de l'estimation, I", Les Annales de la statistique mathématique , vol. 32, non. 1 (mars 1961), pp. 112-135.
  • Van der Vaart, HR, 1961. « Quelques extensions de l'idée de biais » Les Annales de la statistique mathématique , vol. 32, non. 2 (juin 1961), pp. 436–447.
  • Pfanzagl, Johann. 1994. Théorie statistique paramétrique . Walter de Gruyter.
  • Stuart, Alan; Ord, Keith; Arnold, Steven [F.] (2010). Inférence classique et modèle linéaire . Théorie avancée des statistiques de Kendall. 2A . Wiley. ISBN   0-4706-8924-2 . .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1993). Estimateurs impartiaux et leurs applications . 1: cas univarié. Dordrect: Kluwer Academic Publishers. ISBN   0-7923-2382-3 .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996). Estimateurs impartiaux et leurs applications . 2: Cas multivarié. Dordrect: Kluwer Academic Publishers. ISBN   0-7923-3939-8 .
  • Klebanov, Lev [B.]; Rachev, Svetlozar [T.]; Fabozzi, Frank [J.] (2009). Modèles robustes et non robustes en statistique . New York: Éditeurs Nova Scientific. ISBN   978-1-60741-768-2 .

Liens externes