Milieu de gamme - Mid-range

En statistiques , la moyenne ou l' extrême moyenne est une mesure de la tendance centrale d'un échantillon (statistiques) définie comme la moyenne arithmétique des valeurs maximales et minimales de l' ensemble de données :

Le milieu de gamme est étroitement lié à la gamme , une mesure de la dispersion statistique définie comme la différence entre les valeurs maximales et minimales. Les deux mesures sont complémentaires en ce sens que si l'on connaît le milieu de gamme et la gamme, on peut trouver les valeurs maximales et minimales de l'échantillon.

Le milieu de gamme est rarement utilisé dans l'analyse statistique pratique, car il manque d' efficacité en tant qu'estimateur pour la plupart des distributions d'intérêt, car il ignore tous les points intermédiaires et manque de robustesse , car les valeurs aberrantes le modifient de manière significative. En effet, c'est l'une des statistiques les moins efficaces et les moins robustes. Cependant, il trouve une certaine utilité dans des cas particuliers : c'est l'estimateur le plus efficace pour le centre d'une distribution uniforme, la robustesse des adresses de milieu de gamme tronquée, et en tant qu'estimateur L , il est simple à comprendre et à calculer.

Robustesse

Le milieu de gamme est très sensible aux valeurs aberrantes et ignore tous les points de données sauf deux. Il s'agit donc d'une statistique très peu robuste , ayant un point de rupture de 0, ce qui signifie qu'une seule observation peut la modifier arbitrairement. De plus, il est fortement influencée par les valeurs aberrantes: augmenter le maximum de l' échantillon ou en diminuant le minimum échantillon par x modifie le milieu de gamme par alors qu'il change la moyenne de l' échantillon, qui a également point de 0 panne, que par Il est donc peu utile dans statistiques pratiques, à moins que les valeurs aberrantes ne soient déjà traitées.

Un médium rogné est connu comme un midsummary – lemilieu de gamme tronqué n % est la moyenne descentilesn % et (100−n) %, et est plus robuste, avec unpointderuptureden %. Au milieu de ceux-ci se trouve lacharnière médiane, qui est le résumé intermédiaire de 25 %. Lamédianepeut être interprétée comme le milieu de gamme entièrement tronqué (50 %) ; ceci est conforme à la convention que la médiane d'un nombre pair de points est la moyenne des deux points médians.

Ces médiums tronqués sont également intéressants en tant que statistiques descriptives ou en tant qu'estimateurs en L de la position centrale ou de l' asymétrie : les différences de mi-récapitulatif, telles que la charnière médiane moins la médiane, donnent des mesures de l'asymétrie à différents points de la queue.

Efficacité

Malgré ses inconvénients, il est utile dans certains cas : le milieu de gamme est un estimateur très efficace de μ, étant donné un petit échantillon d'une distribution suffisamment platykurtique , mais il est inefficace pour les distributions mésokurtiques , comme la normale.

Par exemple, pour une distribution uniforme continue avec un maximum et un minimum inconnus, le milieu de gamme est l' estimateur UMVU pour la moyenne. Le maximum et le minimum de l'échantillon, ainsi que la taille de l'échantillon, sont une statistique suffisante pour le maximum et le minimum de la population - la distribution des autres échantillons, conditionnelle à un maximum et un minimum donnés, est juste la distribution uniforme entre le maximum et le minimum et ajoute ainsi aucune information. Voir le problème des chars allemands pour plus de détails. Ainsi, le milieu de gamme, qui est un estimateur non biaisé et suffisant de la moyenne de la population, est en fait l'UMVU : l'utilisation de la moyenne de l'échantillon ajoute simplement du bruit basé sur la distribution non informative des points dans cette gamme.

Inversement, pour la distribution normale, la moyenne de l'échantillon est l'estimateur UMVU de la moyenne. Ainsi, pour les distributions platykurtiques, qui peuvent souvent être considérées comme entre une distribution uniforme et une distribution normale, le caractère informatif des points d'échantillon du milieu par rapport aux valeurs extrêmes varie de "égal" pour normal à "non informatif" pour uniforme et pour différentes distributions , l'un ou l'autre (ou une combinaison de ceux-ci) peut être le plus efficace. Un analogue robuste est le trimean , qui fait la moyenne de la charnière médiane (25 % du milieu de gamme coupé) et de la médiane.

Petits échantillons

Pour de petites tailles d'échantillon ( n de 4 à 20) tirées d'une distribution suffisamment platykurtique ( kurtosis excédentaire négatif , défini comme γ 2 = (μ 4 /(μ 2 )²) − 3), la moyenne est un estimateur efficace de la moyenne μ . Le tableau suivant résume les données empiriques comparant trois estimateurs de la moyenne pour les distributions d'aplatissement varié ; la moyenne modifiée est la moyenne tronquée , où le maximum et le minimum sont éliminés.

Excès d'aplatissement (γ 2 ) Estimateur le plus efficace de μ
-1,2 à -0,8 Milieu de gamme
-0,8 à 2,0 Moyenne
2,0 à 6,0 Moyenne modifiée

Pour n = 1 ou 2, le milieu et la moyenne sont égaux (et coïncident avec la médiane) et sont les plus efficaces pour toutes les distributions. Pour n = 3, la moyenne modifiée est la médiane, et à la place la moyenne est la mesure la plus efficace de la tendance centrale pour les valeurs de γ 2 de 2,0 à 6,0 ainsi que de -0,8 à 2,0.

Propriétés d'échantillonnage

Pour un échantillon de taille n de la distribution normale standard , la moyenne M est sans biais et a une variance donnée par :

Pour un échantillon de taille n de la distribution de Laplace standard , le milieu de gamme M est sans biais et a une variance donnée par :

et, en particulier, la variance ne diminue pas jusqu'à zéro à mesure que la taille de l'échantillon augmente.

Pour un échantillon de taille n issu d'une distribution uniforme centrée sur zéro , la moyenne M est sans biais, nM a une distribution asymptotique qui est une distribution de Laplace .

Déviation

Alors que la moyenne d'un ensemble de valeurs minimise la somme des carrés des écarts et la médiane minimise l' écart absolu moyen , le milieu de gamme minimise l' écart maximal (défini comme ) : c'est une solution à un problème variationnel.

Voir également

Les références