Rétrécissement (statistiques) - Shrinkage (statistics)

  (Redirigé de l' estimateur de rétrécissement )

En statistique , le retrait est la réduction des effets de la variation d'échantillonnage. Dans l'analyse de régression , une relation ajustée semble moins bien fonctionner sur un nouvel ensemble de données que sur l'ensemble de données utilisé pour l'ajustement. En particulier, la valeur du coefficient de détermination «diminue». Cette idée est complémentaire du surajustement et, séparément, de l'ajustement standard effectué dans le coefficient de détermination pour compenser les effets subjonctifs d'un échantillonnage ultérieur, comme le contrôle du potentiel de nouveaux termes explicatifs améliorant le modèle par hasard: c'est-à-dire l'ajustement la formule elle-même fournit un «rétrécissement». Mais la formule d'ajustement produit un rétrécissement artificiel.

Un estimateur de retrait est un estimateur qui, de manière explicite ou implicite, incorpore les effets du retrait . En termes vagues, cela signifie qu'une estimation naïve ou brute est améliorée en la combinant avec d'autres informations. Le terme renvoie à la notion selon laquelle l'estimation améliorée est plus proche de la valeur fournie par les «autres informations» que l'estimation brute. En ce sens, le retrait est utilisé pour régulariser les problèmes d' inférence mal posés .

Le rétrécissement est implicite dans l'inférence bayésienne et l' inférence de vraisemblance pénalisée, et explicite dans l' inférence de type James – Stein . En revanche, les types simples de procédures d' estimation du maximum de vraisemblance et des moindres carrés n'incluent pas d'effets de retrait, bien qu'ils puissent être utilisés dans des schémas d'estimation de retrait.

La description

De nombreux estimateurs standards peuvent être améliorés , en termes d' erreur quadratique moyenne (MSE), en les ramenant vers zéro (ou toute autre valeur constante fixe). En d'autres termes, l'amélioration de l'estimation par rapport à la réduction correspondante de la largeur de l'intervalle de confiance peut l'emporter sur l'aggravation de l'estimation introduite en biaisant l'estimation vers zéro (voir compromis biais-variance ).

Supposons que la valeur attendue de l'estimation brute n'est pas nulle et considérons d'autres estimateurs obtenus en multipliant l'estimation brute par un certain paramètre. Une valeur pour ce paramètre peut être spécifiée afin de minimiser l'EQM de la nouvelle estimation. Pour cette valeur du paramètre, la nouvelle estimation aura un MSE plus petit que le brut. Ainsi, il a été amélioré. Un effet ici peut être de convertir une estimation brute non biaisée en une estimation biaisée améliorée.

Exemples

Un exemple bien connu se présente dans l'estimation de la variance de la population par la variance de l' échantillon . Pour une taille d'échantillon de n , l'utilisation d'un diviseur n  - 1 dans la formule habituelle ( correction de Bessel ) donne un estimateur sans biais, tandis que les autres diviseurs ont une MSE plus faible, au détriment du biais. Le choix optimal du diviseur (pondération du rétrécissement) dépend de l' excès d'aplatissement de la population, comme discuté à l' erreur quadratique moyenne: variance , mais on peut toujours faire mieux (en termes de MSE) que l'estimateur sans biais; pour la distribution normale, un diviseur de n  + 1 en donne un qui a l'erreur quadratique moyenne minimale.

Méthodes

Les types de régression qui impliquent des estimations de rétrécissement incluent la régression de crête , où les coefficients dérivés d'une régression régulière des moindres carrés sont rapprochés de zéro en multipliant par une constante (le facteur de rétrécissement ), et la régression au lasso , où les coefficients sont rapprochés de zéro en ajoutant ou soustraire une constante.

L'utilisation d'estimateurs de retrait dans le contexte de l'analyse de régression, où il peut y avoir un grand nombre de variables explicatives, a été décrite par Copas. Ici, les valeurs des coefficients de régression estimés sont ramenées à zéro avec pour effet de réduire l'erreur quadratique moyenne des valeurs prédites du modèle lorsqu'elles sont appliquées à de nouvelles données. Un article ultérieur de Copas applique le rétrécissement dans un contexte où le problème est de prédire une réponse binaire sur la base de variables explicatives binaires.

Hausser et Strimmer "développent un estimateur de retrait de type James-Stein, résultant en une procédure qui est très efficace sur les plans statistique et informatique. Malgré sa simplicité, ... il surpasse huit autres procédures d'estimation d'entropie dans un large éventail de scénarios d'échantillonnage et modèles générateurs de données, même en cas de sous-échantillonnage sévère. ... la méthode est entièrement analytique et donc peu coûteuse en calcul. De plus, ... la procédure fournit simultanément des estimations de l'entropie et des fréquences des cellules. ... Les estimateurs de retrait proposés de l'entropie et l'information mutuelle, ainsi que tous les autres estimateurs d'entropie étudiés, ont été implémentés dans R (R Development Core Team, 2008). Un package R correspondant «entropy» a été déposé dans l'archive R CRAN et est accessible à l'URL https: //cran.r-project.org/web/packages/entropy/ sous la licence publique générale GNU. "

Voir également

Les références

Logiciel statistique

Hausser, Jean. "entropie" . paquet entropie pour R . Récupéré 23/03/2013 .

Les références